Agentic RL 训练全景：环境、信号、分布与系统的协同闭环

10 minute read

Published: April 28, 2026

过去一年，各家大模型公司公开的技术报告透出的最重要信号，不是又出现了一个更好的 PPO/GRPO 变体，而是真正有效的 Agentic RL 已经从”单轮文本优化”转向了”在长上下文、工具调用、部分可观测、异步执行环境中的系统性策略学习”。
Kimi K1.5[1] 把长上下文 RL、partial rollout 重用和 mirror-descent 风格的 policy optimization 拉到了台前；Kimi K2[2]/K2.5[3] 又把 agentic 数据合成、多模态 RL、token-level clipping、GRM rubric、Toggle、PARL / Agent Swarm 这些关键部件公开；MiniMax 把另一个事实讲得更彻底：当 rollout 时长从秒级扩到小时级，训练瓶颈就不再是 loss design，而是吞吐、稳定性与 agent 灵活性之间的三难权衡；GLM 则强调分阶段 RL：Reasoning RL、Agentic RL、General RL 不是混在一起一次训完，而是通过顺序化 pipeline 逐步推进，并借助异步 RL 基础设施与跨阶段蒸馏来兼顾长时程 agent 学习与能力保持。
Agentic RL 的核心问题，已经从”怎么更新参数”扩展为”怎么在真实 Agent 环境里持续制造可用的学习信号，并用在线交互的轨迹数据驱动优化“。

一、为什么 Agentic RL 与传统 RLHF / RLVR 不同

Agentic RL 的训练对象不再是”给定一个 prompt，输出一个答案”的单轮文本映射，而是一个在环境中交互的策略。这个策略要处理：状态更新、工具调用、外部观察、上下文整理、子任务委派、终止条件判断，以及成本 / 时延 / 安全约束。换句话说，agentic RL 更像是在做一类带有长时间尺度、部分可观测性和结构化动作空间的策略学习，而不是简单地对文本续写概率做后验重排。

这直接带来四个训练上的变化：

状态不再只由用户输入决定：它由历史轨迹、工具返回、环境回馈、记忆摘要和当前上下文共同构成。
动作也不再只是下一个 token：它可能是”选哪个工具、填什么参数、要不要压缩上下文、是否并行分派子任务”。
奖励更延迟、更稀疏、更复合：既要看结果对不对，也要看过程是否准确、是否高效、是否节省 token 和单位时间有效训练效率。
Rollout 时间高度不均匀：同步训练代价高，异步训练又引入分布偏移。

因此，agentic RL 的本质不是把 GRPO / PPO 套到更长的输出上，而是把环境、奖励、采样、调度、缓存、优化器和评测接到同一个闭环里。

二、理解 Agentic RL 的三个不变量

如果把 Agentic RL 理解成一个”在真实环境里持续交互、持续采样、持续更新”的策略学习系统，那么真正重要的就不再是”这一步用哪种 RL 算法”，而是训练闭环能否长期守住三个更底层的条件。

这里的”不变量”不是指某个量在数学上严格恒定，而是指它们虽然会天然漂移，却必须在整个训练过程中被不断拉回到一个仍然可学习、可优化的区间里。前两个是不应跌破的下限，第三个是不应越过的上限。

1）第一不变量：策略的可探索空间不能过早塌缩

第一不变量不是要求输出更随机、token 熵更高，而是：模型在给定状态下，仍然保有一组彼此可区分、语义上不同、并且真实可行的行为路径。

对 Agentic RL 来说，这个探索空间不只是”不同措辞”，而是：

不同的任务分解方式
不同的工具调用顺序
不同的记忆读写策略
不同的上下文整理方式
不同的停止条件与自我修正路径

它之所以会塌缩，是因为训练天然会把概率质量压向”少数当前最占优的模式”。只要训练目标主要奖励”更短、更像标准流程、更容易被 verifier 识别”的行为，模型就会把其他原本也可能成功的路径边缘化。在 agent 场景下，这种压缩比单轮问答更严重——工具接口、scaffold、上下文模板和终止逻辑本身就会暗中偏好某类固定 workflow。

保持这一不变量的意义：它决定了后续 RL 是否还有真正的搜索空间。RL 的价值不是把已知最好答案重复推高概率，而是让模型在交互中持续发现”此前还没被放大的高回报行为”。如果可探索空间已经提前塌缩，后面的采样大多只是对同一种套路做表面扰动，reward spread 越来越小，训练看似还在继续，实际上只是在一个已经缩水的空间里做局部扰动。

2）第二不变量：学习信号必须持续非退化

即使模型仍然保有多种可行路径，这些路径也不一定会被学到。参数更新依赖的不是”存在别的可能性”，而是不同轨迹之间的差异能否稳定地转成非零、方向明确、尺度合理的梯度。

Agentic RL 的奖励结构天然容易让信号塌缩：真实任务奖励延迟、结果稀疏、过程很长，最终常常只有成败标签、粗粒度 rubric，或少数高层质量分。于是同一组采样很容易出现两种退化情形——

简单任务几乎全对（模型已在该局部饱和）
困难任务几乎全错（模型尚未进入可学习区域）

但对梯度而言，这两类样本都会导向同一个结果：组内没有足够差异，优势接近消失，更新方向随之退化。再叠加长轨迹的信用分配、部分可观测性带来的归因模糊、工具噪声和 verifier 噪声对比较关系的污染——系统表面上在大量收集交互数据，实际上却在不断生产”不可学样本”。

这里有一个关键观察：学习信号的质量，不取决于奖励项有多少，而取决于比较是否可学。奖励可以很复杂，但如果它无法在模型当前边界附近稳定区分”略好”与”略差”的轨迹，它仍然会产生退化梯度。反过来，一个看上去更简单的反馈，只要能持续打开轨迹间的有效差异，也能成为高质量学习信号。

第二不变量真正要求保持不变的，不是奖励总量，而是可比较性与可更新性。

3）第三不变量：训练 / 更新 / 部署三者的分布偏移必须可控

前两个不变量解决”还有没有别的路径”和”这些路径能不能变成梯度”，第三个不变量解决这些梯度是不是作用在了正确的分布上。

在 Agentic RL 中，有三个天然不一致的分布：

策略模型采样出的 rollout 分布
learner 真正拿来更新的样本分布
最终部署执行的策略分布

Agent 训练会持续制造分布漂移：

轨迹长短差异极大，严格同步的 on-policy 不现实，异步采样、缓存、续跑、复用、过滤都会让”生成样本时的策略”和”更新参数时的策略”发生时间错位；
Agent 状态由工具返回、环境反馈、上下文裁剪、记忆摘要、调度决策共同构成，只要其中任何一层在 rollout / training / serving 三阶段的表示不完全一致，模型学到的可能就不是同一个动作语义；
训练和部署脚手架常常并不完全相同：解码设置、context packing、tool schema、tokenizer/engine、middleware、日志序列化方式都会改变模型真正面对的决策问题。

结果是：被优化的不再是一个干净统一的策略分布，而是多个相似但不相同的分布拼接而成的近似对象。

对长轨迹 Agent，这一点尤其致命——轨迹越长，前面每一点小的偏移都会沿着后续状态转移不断累积，最终把策略推向”在训练里看起来合理、在真实环境里却不可执行”的方向。

Agentic RL 里的分布偏移，不只是外部环境变化带来的，它在很大程度上是系统自己制造出来的。这也是为什么第三不变量不是单纯的算法修正问题，而是一个系统级的一致性问题。

4）为什么这三个不变量要放在一起理解

它们不是彼此独立的三条要素，而是同一个训练系统的三个耦合边界：

不变量	本质问题	失守后果
第一	策略空间是否还够宽	没有可探索的新路径
第二	空间里的差异能否转成有效梯度	有路径但学不到
第三	梯度是否作用在正确分布上	学到的行为在部署时失真

只有探索没有信号：训练变成高噪声试错；
只有信号没有探索：训练迅速收缩到狭窄局部最优；
探索和信号都有，但分布偏移失控：学到的也不是部署时真正需要的行为。

它们彼此之间还天然存在张力：探索更强，会让比较更稀、分布偏移更难控；过度追求稳定更新，又容易压平探索空间；为了制造更锋利的信号把 verifier 设计得过于严格，又会让模型朝少数投机模式收缩。

Agentic RL 真正要解决的，不是把某个 loss 降得更低，而是在一个持续变化、持续异步、持续与外部环境交互的系统里，始终把探索、信号和分布维持在同一个可学习区间内。

三、Agentic RL 的九个关键维度

三个不变量是”要守住什么”；下面九个维度是”在哪些具体位置守”。前八个维度对应训练系统的核心环节，第九个维度（评测与可观测性）回答的是一个更基础的问题——如果你连三个不变量是否正在被守住都测不出来，就根本谈不上管理它们。

1. 环境与接口建模：先搞清楚”环境允许 Agent 做什么”，再谈”正确答案是什么”

Agentic RL 和普通”对一道题生成一个答案”的最大差别在于：模型不再只是从 prompt 里猜一个 completion，而是在一个可交互、可执行、带状态转移的世界里学 policy。

决定 Agentic RL 训练效果的第一个变量不是 reward model，而是环境和接口本身是否设计清楚：

每一步模型能看到哪些信息？
能采取哪些动作、哪些工具调用是允许且有效的？
任务在什么条件下结束、成功如何判断？
训练时使用的工具接口和交互流程，是否和真实部署一致？

当前几家的共识非常一致：

Kimi K2 把大规模 agentic 数据合成 + 真实/合成环境 RL 放进后训练主线；
K2.5 把 Agentic RL 统一到 Gym-like 接口，并支持大规模异步任务管理；
GLM-5[8] 把 agentic RL 扩展到超过 10K 个可验证的软件工程环境、terminal 环境和多跳搜索任务；
Forge[9] 强调系统跨越了十万级 real-world scaffolds 与数千种工具调用格式。

真正的 agentic capability 不是从静态数据里背下来的，而是从结构化、可验证、可迁移的环境里训练出来的。

环境建模的核心，不是把现实世界完整模拟出来，而是把真实工作转写成一个结构上不失真的可训练决策过程——重要的不是表面真实，而是 structural fidelity：动作空间、关键信息流、失败模式和成功判据，是否与真实部署保持一致。举一个典型例子：一个客服 agent 不必复现公司所有噪声，但必须保留库存状态、退款规则、权限边界、上下文记忆、工具接口、升级流程和最终评分 rubric；否则学到的只是”像在做客服”，而不是”真的能做客服”。

环境覆盖度，是 Agentic RL 的第一条 scaling axis。但真实任务的难点往往不在 data scaling，而在 specification scaling：很多高价值任务之所以难进训练闭环，不是因为模型不够聪明，而是因为任务没有被写成机器可执行、机器可验证的规范。下一代 env scaling 更像三个”编译器”问题：

task compiler：把模糊请求编译成初始状态、工具、约束和终止条件；
verifier compiler：把”做得好不好”编译成可执行检查、rubric 和必要时的人类审阅；
scaffold compiler：把同一能力放进不同 agent scaffold、tool schema 和 orchestration loop，避免模型只记住单一 workflow。

Forge 强调跨大规模 scaffold 训练，本质上就在处理第三个问题。真实人类任务里最大的问题不是”任务太少”，而是 evaluator 太弱——一旦 verifier 失真，模型就会学会 hacking，而不是学会工作。SWE-Universe[10] 把环境构建、self-verification 和 hacking detection 自动化，说明大家已经开始把”防投机评测”当成环境的一部分。

2. 探索能力与多样性保持：不是把 temperature 调高，而是维护可探索行为的空间

很多人一谈”探索”就想到：调高 temperature、多采几个 rollout、加 entropy regularization。但对 agentic RL，这些都只是表层现象。核心问题是：模型在训练的不同阶段，是否仍然保有一组彼此可区分、都可能成功、且在参数空间里真实可达的行为路径。

对 reasoning 模型，这个问题已经被直接观察到：随着 SFT 推进，Pass@1 可以继续上升，但 Pass@k 会快速恶化，而且后续 RL 往往也恢复不了；仅靠 token-level 的多样化解码，距离理论上的 oracle 上界仍有明显差距。真正塌缩的不是采样温度，而是模型权重层面的行为可探索空间。

所以这一节最本质的思想是：探索本质上是一个 support management 问题。你要管理的不是 token 级噪声，而是模型是否还保有：

多种合法任务分解
多种工具调用顺序
多种上下文组织方式
多种长度的 reasoning path
在 agent 场景下的多种 memory / planning / action 组合

只要这些分支在参数里还活着，后续 RL 才有可能通过 verifier 和 rollout 把它们放大；一旦在进入 RL 前就被压没，训练再稳定也只是在缩水的空间里做局部优化。

预训练 / 基座阶段决定的是 reachable support——模型是否已经具备足够多的技能碎片、长上下文耐受性、工具使用先验和任务分解能力：

MiniMax-M1[11] 把额外 7.5T continual pretraining 直接称为 “Foundation for RL Scaling“；
Kimi K2 用 diverse agents、tool combinations 和 rubric-guided tasks，把未来 agent 可能探索的 action space 和 task space 提前做宽；
DeepSeek-R1-Zero[12] 提供了另一个很有代表性的例子：它在没有 SFT 冷启动的前提下直接 RL，模型会自然增加思考时长，并逐步长出更长推理和自我修正的行为——这说明对能力足够强的基础模型，RL 过程本身就可能激发并放大更长程的推理与自我修正行为。

冷启动 / SFT 阶段真正要解决的，不仅是”把模型教得更会答题”，而是不要在进入 RL 之前就把分布压塌：

GEM[4] 的重要性不在于又提出一个新的 SFT loss，而在于它把问题说透了：标准交叉熵 SFT 会压缩输出分布，抹掉很多 alternative plausible outputs，而在线 RL 恰恰需要这些行为分歧来形成探索空间；
Getting Your LLMs Ready for RL[13] 进一步指出：最适合接 RL 的 checkpoint，往往不是 validation 上表现最好的那个——在传统过拟合发生之前，模型就可能已经出现 distributional forgetting，过度偏离 base distribution，从而损害后续 RL 的潜力。

到了在线 RL 阶段，探索问题又会表现成另一种形态：即便模型内部还保留着多种路径，如果 RL 目标只盯 correctness，训练仍然会把概率质量持续推向少数高回报模式：

DAPO[14] 把 Clip-Higher 明确写成 “promotes diversity and avoids entropy collapse“；
Diversity-Aware Policy Optimization[15] 在 12 个 LLM 上给出更强的经验结论：solution diversity 与 Potential@k 存在强正相关，因此在 RL 目标中显式促进 token-level diversity，平均带来 3.5% 的数学推理提升。

这里真正重要的不是某一个技巧，而是一个更深的转向：探索，第一次从”训练自然会保住的东西”，变成了需要被显式优化的对象。

这一维度今天仍有几个未解决的问题：

当前很多方法管理的仍然是 token entropy 或字符串级 diversity，但 agentic RL 真正需要保住的是语义层和策略层的多样性——不同工具顺序、不同 memory 操作、不同任务分解不一定表现为更高的 token entropy；
很多系统的 verifier 偏 outcome-only，天然低估那些”短期看更绕、长期却更有价值”的探索路径；
社区仍过度依赖 Pass@1，而对 Pass@k、Potential@k、解法簇数量、跨 scaffold 迁移这些更接近探索前沿的指标重视不够。

3. 算力分配与学习信号整理：谁拿到 rollout，谁才真正有机会被学到

上一节讨论”多样化的采样路径是否存在”，这一节讨论在固定 rollout 预算下，这些路径里哪些会真正进入梯度。探索解决可达性，算力分配解决可学习性。

对 reasoning / agentic RL 来说，模型内部也许还保留着多种策略，但如果 rollout 总是平均分给”已经学会的简单题”和”暂时完全学不会的极难题”，训练既看不到组内差异，也形成不了有效梯度——在稀疏奖励和 group baseline 设置下，很多 prompt-group 会退化成全 0 或全 1，advantage energy 为 0，gate 关闭，这些组消耗了算力却没有产生 usable learning signal。

因此，真正该优化的目标不只是平均 reward，而是更接近训练动力学本身的量：

non-zero gradient ratio
gate-open probability
组内 reward spread
单位训练时间内的有效样本率

算力分配是 credit assignment 的上游机制：谁拿到更多 rollout，谁就更有机会被比较、被区分、被学到。

主流做法可以分成三类——

① 方差控制视角。既然不同 prompt 对梯度方差的贡献不同，那么 rollout 预算就应该优先投给那些最能减少估计方差、最可能恢复学习信号的 prompt：

GVM-RAFT[17] 从 acceptance rate 和 gradient noise 的角度做动态分配；
VIP[18] 更系统，用轻量高斯过程预测 prompt 成功概率，再转成 gradient variance 估计，并在固定预算约束下解一个 rollout allocation 优化问题。VIP 明确把目标写成 minimize the expected gradient variance of the policy update，而不是机械拉高 pass rate。

这标志着 rollout allocation 开始从经验 heuristics 变成 policy optimization 的一部分。

② 学习价值—成本权衡视角。Knapsack RL[6] 把每个任务的探索看成”具有不同 value 和 cost 的 item”，由此推出自适应资源分配规则——把预算从已经学饱和的题转移到更可能产出信号的题。预算分配不是为了省钱，而是避免把大量算力烧在注定不会更新参数的地方。

③ 主动恢复信号视角。Reinforce-Ada[19] 认为很多”所谓难 prompt”没法学，其实是 undersampling 造成的统计假象，而不是模型真没潜力。于是它不再用固定小组、统一采样被动等待 mixed outcomes，而是根据 prompt 难度动态增加推理预算，主动去找出那些本来会被 uniform GRPO 漏掉的信号。

这个话题还有不少未解问题：

现有 allocator 主要依赖 pass rate、variance proxy 或近期 rollout 统计，但这些量不等于长期训练价值——一个 prompt 今天方差大，不代表明天最值得更多预算；
现有方法仍把单条 prompt 作为分配单位，但 agentic RL 的训练难度更多取决于交互结构和执行状态（scaffold、工具链、历史记忆、任务阶段），而不只是 prompt 文本；
大多数分配器优化的是局部训练效率，还没有把预算分配、reward 结构、hinting、off-policy freshness、长时程 credit assignment 联合起来。

下一步真正值得做的是：把 semantic difficulty、uncertainty、verifier sharpness、历史 learning gain、scaffold transfer 价值、甚至 hinting 后的 gate-open probability，一起纳入 allocation policy；把 prompt-level allocation 推广到 trajectory segment、tool-call branch、memory operation 这类更细的 agent 单位。到那时，算力分配才会真正从”更高效的训练技巧”变成 agentic RL 的核心算法层。

4. 目标函数与策略优化：不先问”用哪种 RL”，先问”现在到底坏在哪”

这一部分重点不是 PPO、GRPO、REINFORCE 的技术细节，而是Agentic RL 的优化器究竟在控制什么。更本质地说，它在回答两个问题：

高回报轨迹要以多大力度被推回当前策略？
rollout 分布、learner 更新分布、deployment 执行动作之间允许多大偏移？

这里有一条常被忽略的基本事实：PPO 那一整套 value network machinery 未必是必要的。ReMax[5] 提醒我们，在文本生成这种快仿真、近似确定性转移、轨迹级奖励的设定下，REINFORCE 路线也可以既简单又稳定。Kimi K1.5 则把长 CoT RL 明确写成 relative-entropy regularized 的 online mirror descent 问题。

到了 K2.5、MiniMax-M1 和 GLM-5，问题进一步从”如何估 advantage”转成”如何控制长轨迹、异步 rollout、训练 / 推理 mismatch 下的 off-policy drift”，于是出现了这些看起来很细但实际上很关键的设计：

K2.5 的 token-level clipping：处理 train-inference framework 差异放大的 off-policy divergence；
M1 的 CISPO：裁 importance weights 而不是裁 token updates，在保留更多 token 级梯度的同时控制比值爆炸；
GLM-5 的 TITO + 双边重要性采样：确保被优化的动作尽可能还是当时真正被采样的动作。

未来真正有价值的优化研究，不是继续修改 PPO 或 GRPO 的公式，而是先诊断：训练当前究竟受限于哪一类瓶颈——

梯度噪声过大？
策略漂移过快？
训练目标与真实任务不匹配？

只有先定位清楚，才能决定是改进优势估计、采样方式、更新约束，还是训练调度策略。

5. Rollout 采样、异步并行与调度：调度策略本身就是算法的一部分

在真实 agent 场景，理想化的同步 on-policy RL 很难被满足：不同 rollout 完成时间差异极大，短的几秒，长的可能几十分钟甚至更久。坚持严格同步会被 straggler 拖死；完全贪心异步又把训练拖入过重的 off-policy 偏移。

各家给出的折中方案非常有代表性：

Kimi K1.5 的 partial rollout：长轨迹切段，未完成部分进 replay buffer，下一轮继续，只有当前段要求 on-policy；
K2.5：每个 agent task 都当作独立异步 coroutine，通过专门的 Rollout Manager 支持高并发；
MiniMax 的 Windowed FIFO：在”严格 FIFO（稳但慢）”和”完全异步（快但漂移大）”之间做折中——不要求全局严格排队，只在有限窗口内保持大致顺序，让窗口里的已完成任务可以灵活先训练；
GLM-5：直接把采样和训练分开，一边持续并行生成轨迹，另一边独立消费数据，再用 TITO + 双边重要性采样 + 陈旧样本过滤来控制异步训练中不可避免的 off-policy 偏移。

很多人把 queueing、resume、tail-latency、staleness 当成工程问题，但在 agentic RL 里，调度实际上会改写训练分布。K1.5 的 partial rollout 意味着一条长轨迹由新旧段拼接而成；MiniMax 的 Windowed FIFO 直接控制了”允许新鲜样本先于更早提交的样本进入训练”的程度；GLM-5 的异步 Agent RL 更是明确承认”不现实去追踪所有历史行为策略，必须在可接受的偏差内做近似校正”。

Agentic RL 的核心不是”如何保持纯 on-policy”，而是如何在不可避免的异步与陈旧性下，让偏移保持在仍然有学习价值的范围内。这就是为什么 rollout system 不是承载算法的底座——它本身就是算法的一部分。

6. 奖励、验证器与效率约束：Reward 定义的不只是”答对”，而是”怎样工作才算好”

很多关于 agentic RL 的讨论会说”verifier 就够了”。这对真实 Agent 任务其实不成立：agent 的成功不只体现在 final correctness 上，还体现在动作是否合理、工具调用是否合适、是否浪费上下文、是否无意义过度思考、是否拖慢总完成时间、以及输出是否符合更高层的质量和交互要求。

几家的具体做法非常有参考价值：

K2.5：可验证任务用 rule-based outcome reward，token 成本用 budget-control reward，开放任务用多 rubric GRM，并通过 Toggle 在”尽量做对”和”尽量省 token”之间交替优化；
MiniMax-M1：verifiable 与 unverifiable 任务分开处理，用 GenRM 处理不能靠规则验证的任务，并特别讨论了长 CoT 下 GenRM 的 length bias——奖励模型偏好更长但未必更好的回答，会直接诱发 reward hacking；
GLM-5：把 rule-based reward、ORM、GRM 组合成 hybrid reward system，并明确写出三者权衡——规则奖励精确但窄，ORM 低方差但容易被 exploit，GRM 更灵活但方差更高；
Forge：进一步把中间过程质量和任务完成时间都纳入 agent RL——真实用户需要的不是”最终做对但过程低效、等待很久”的系统，而是”既能做对、又能较快完成”的 agent。

对 reward 正确的理解是”工作方式的规范化”，而不只是”答案质量的评分器”：

K2.5 用多个 GRM rubric，是因为单一偏好信号太容易被过拟合；
M1 专门处理 GenRM 长度偏置，是因为 reward model 一旦系统性偏向 verbose response，整个 RL 就会被带偏；
Forge 引入完成时间相关奖励，是因为真实部署中 agent 的效用不只由正确率决定，还取决于实际耗时。

Reward design 的关键不是给模型更多分数，而是把 correctness、quality、efficiency、robustness 拆开，再决定哪些可以硬验证、哪些要用模型判断、哪些必须通过对抗测试和 OOD transfer 来防止被投机。

7. 记忆、层级与并行 Agent：被训练的对象已经不只是 Token Policy，而是 Operating Policy

很多人一谈 long-context agent 就想”把 context window 做大一点”。但长上下文不等于记忆，更不等于好的 agent。核心问题是：当交互历史越来越长、工具观察越来越多时，模型如何决定什么该保留、什么该丢弃、什么该压缩、什么时候拆任务、什么时候并行多个子 agent？

MiniMax Forge 的 Context Rot：即使没有触到绝对 context window 上限，长轮次交互中累积的中间推理和冗余 observation 也会造成 attention dilution，让模型失焦。于是 Forge 直接把 Context Management 纳入 RL 交互回路，把它当作一种显式 action，让 context transition 本身成为环境状态转移的一部分；
GLM-5 在搜索 agent 上也观察到极长上下文会明显伤害性能，因此使用 keep-recent-k 与 discard-all 的层级式 context management；
K2.5 的 Agent Swarm 与 PARL：当单 agent 顺序执行的延迟变得不可接受时，让 orchestrator 学会动态任务分解、子 agent 创建和并行调度。训练时只更新 orchestrator、冻结 sub-agent，以规避最难的 credit ambiguity 与训练不稳定。

被优化的对象已经从”token 级生成策略”扩展成”操作系统级策略”——模型不再只决定下一个 token，而是在决定：

算力怎么花
上下文怎么管
任务怎么拆
子 agent 怎么协作

K2.5 的一个关键 insight：真正的并行 agent 不是把同一个模型复制几份并发运行，而是让 orchestrator 学会”什么时候值得并行、如何分配子任务、如何在最终汇总时保持全局一致性”。Forge 则强调：记忆管理如果只在 inference 端手工加规则、训练时没见过这种状态转移，最终会形成严重的 inference-training mismatch。

未来 agentic RL 的 frontier，未必是让模型”再想更久”，而是把 memory editing、hierarchical decomposition 和 agent orchestration 一起纳入训练目标。

8. Infra 基础设施：它不是承载算法的底座，而是在塑造训练分布

如果说 RLHF 是在一个相对规整的 prompt → completion → reward → update 闭环上做优化，那么 Agentic RL 面对的是长短极不均匀、工具调用密集、环境反馈异步、动作语义复杂的真实交互轨迹。

在这种设定下，基础设施直接决定：

rollout 以什么顺序完成
哪些样本因过时被丢弃
哪些前缀能够复用
训练端和推理端看到的是否还是同一个动作空间

这里有三层 infra：

① 塑造训练分布的 rollout / learner 基础设施。由于任务完成时间可能从秒级跨到小时级，同步 on-policy 几乎不可能，系统必须处理 actor–learner 解耦、队列调度、buffer freshness、checkpoint staleness、partial rollout reuse、stale sample filtering。MiniMax Forge 把 strict FIFO / greedy async / Windowed FIFO 的权衡直接写成”吞吐与分布稳定之间的核心矛盾”；GLM-5 通过异步 generation-training 解耦 + TITO + double-sided importance sampling 控制偏移；K1.5 的 partial rollout reuse 说明长轨迹能否被复用，本身就是训练 recipe 的一部分。这一层 infra 直接塑造了”模型真正看到的训练分布”。

② 提升吞吐与成本效率的规模化训练 / 推理 infra。包括训练 / 推理解耦、数据池缓存、KV / prefix 复用、动态 batching、各种并行化和异构资源调度策略。它们解决的核心问题不是”单点算法是否成立”，而是”这些方法能否在现实成本下真正跑到足够规模”。对 agent workload 来说，模型生成、环境执行、工具调用、verifier 计算、日志存储的资源瓶颈完全不同，基础设施必须是解耦和分层的，不能继续沿用单一、同步、同构的训练范式。

③ 保证数值一致性和训练—推理一致性的 serving infra。最容易被低估但其实最关键：Agentic RL 优化的不是抽象文本，而是具有明确执行语义的动作序列——训练时、采样时、部署时对动作的表示或接口稍有错位，模型学到的策略就可能在上线时部分失效。GLM-5 的 TITO 之所以重要，不只是为了省一次 re-tokenization，而是为了精确保持 sampled action 与 optimized action 的对应；MiniMax Forge 的 gateway 与 middleware 设计本质上也在做 action interface standardization。因此，tokenizer / engine 对齐、tool schema 标准化、trajectory serialization、metadata logging、train-serving alignment——都不再只是工程细节，而是在决定训练时被优化的动作，是否真的是部署时会执行的那个动作。

9. 评测与可观测性：测不出来的不变量，就守不住

前面八节讲了”在哪里守不变量”，但有一个被大多数文章忽视的基础问题：如果你连三个不变量是否正在被守住都测不出来，就根本无从管理它们。

Agentic RL 的 evaluation 不能只看 Pass@1 或 final reward，至少需要三类互补的观测维度：

① 探索健康度（对应第一不变量）：

Pass@k、Potential@k、解法簇数量（semantic cluster count）
行为路径的 scaffold 迁移率（同一能力在不同 scaffold 下的成功率）
长期 entropy trajectory 与 action-level 多样性（而不仅是 token-level）

② 学习信号健康度（对应第二不变量）：

non-zero advantage ratio：一个 batch 内多少 group 产生了非零梯度
gate-open probability：group-based 方法中 advantage 有效的样本比例
组内 reward spread 和 gradient SNR
单位训练时间的有效样本率（effective tokens per GPU-hour）

这些量往往比 loss 曲线更能解释”为什么训练看起来还在跑，但能力没长”。

③ 分布一致性（对应第三不变量）：

training–serving KL：相同 prompt 下训练 checkpoint 与部署 checkpoint 的输出分布差异
rollout staleness 分布：样本被生成时的策略与被学习时的策略相隔多少步
tokenizer / tool schema mismatch 率：训练端与部署端接口一致性的硬指标
长轨迹误差累积曲线：模型表现随交互步数退化的速度

在更高层次上，还需要一套对抗性评测：verifier-hacking 检测、reward-model OOD 探针、scaffold 替换测试、工具噪声注入测试——这些不是”锦上添花的 benchmark”，而是第一不变量和第二不变量是否被守住的直接证据。

SWE-Universe 把 hacking detection 自动化进环境，本质上就是在承认：评测已经不是 pipeline 的末端，而是训练系统的一部分。没有这层观测，所谓”调参”就只是在黑箱里做随机扰动。

四、结语：Agentic RL 的真正竞争，不在单点算法

回到开头那句话——Agentic RL 的核心问题，已经从”怎么更新参数”扩展为”怎么在真实 Agent 环境里持续制造可用的学习信号”。

把三条技术路线放在一起看，信号非常清楚：

Kimi 路线告诉我们：(1) 长上下文本身是一条 RL scaling axis；(2) 复杂的 value function / MCTS / process RM 不是唯一道路，简洁但分布一致的 policy optimization 也能跑出很强的长链能力；(3) 当 agent 工作流变复杂后，奖励模型、token-level clipping、token efficiency 控制和 learned parallel orchestration 会越来越重要。K1.5 → K2.5 的演进，本质上是从”把长 reasoning RL 跑通”走向”把多步 agentic / multimodal RL 规模化”；
MiniMax 路线说明：长时程 agent RL 一进到真实环境，首要问题很快就从”模型能不能推理”转向”系统能不能稳定地持续学习“。M1 的 CISPO 的价值在于修复长轨迹 RL 的 off-policy 和梯度裁剪副作用；Forge 进一步证明，异步调度、上下文管理、完成时间奖励、跨任务联合训练、前缀树合并这类”看起来很工程”的东西，实际上决定了你最终能否在大规模真实环境里把 RL 跑起来；
GLM 路线强调：后训练不应该一股脑混在一起，而要按能力类型分阶段组织，并借助蒸馏机制保护已有能力。Reasoning RL → Agentic RL → General RL 的顺序不只是训练日程安排，而是一种能力编排方式。GLM-5 对异步 RL 基础设施、TITO、double-sided importance sampling 的强调，也再次说明：训练系统与策略优化之间已经没有清晰边界。

综合这些路线，一个清晰的结论是：

Agentic RL 不只是”更大模型 × 更多数据 × 更多 token”，而是：
更丰富的环境覆盖
更高密度的有效学习信号
更一致的 rollout / update / serving 分布
更高的单位时间有效训练效率
以及能让你确认前四者正在发生的评测与可观测性

在完善高效的 infra 支持下，谁在这五个维度上同时做得更好，谁就更可能真正把 agent 训出来。

参考文献

[1] Kimi Team. Kimi k1.5: Scaling Reinforcement Learning with LLMs. arXiv:2501.12599, 2025. https://arxiv.org/abs/2501.12599

[2] Kimi Team. Kimi K2: Open Agentic Intelligence. arXiv:2507.20534, 2025. https://arxiv.org/abs/2507.20534

[3] Kimi Team. Kimi K2.5: Visual Agentic Intelligence. arXiv:2602.02276, 2026. https://arxiv.org/abs/2602.02276

[4] Ziniu Li et al. Preserving Diversity in Supervised Fine-Tuning of Large Language Models. arXiv:2408.16673, 2024. https://arxiv.org/abs/2408.16673

[5] Ziniu Li et al. ReMax: A Simple, Effective, and Efficient Reinforcement Learning Method for Aligning Large Language Models. arXiv:2310.10505, 2023. https://arxiv.org/abs/2310.10505

[6] Ziniu Li et al. Knapsack RL: Unlocking Exploration of LLMs via Optimizing Budget Allocation. arXiv:2509.25849, 2025. https://arxiv.org/abs/2509.25849

[7] Hanze Dong. Curate the Learning Signal for Reinforcement Learning: Variance Minimization, Adaptive Sampling, and Self-Hinting. Blog post, 2026. https://hendrydong.github.io/blogs/pages/rl-ada.html

[8] GLM-5 Team. GLM-5: from Vibe Coding to Agentic Engineering. arXiv:2602.15763, 2026. https://arxiv.org/abs/2602.15763

[9] MiniMax. Forge: Scalable Agent RL Framework and Algorithm. MiniMax News, 2026. https://www.minimax.io/news/forge-scalable-agent-rl-framework-and-algorithm

[10] Mouxiang Chen et al. SWE-Universe: Scale Real-World Verifiable Environments to Millions. arXiv:2602.02361, 2026. https://arxiv.org/abs/2602.02361

[11] MiniMax. MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention. arXiv:2506.13585, 2025. https://arxiv.org/abs/2506.13585

[12] DeepSeek-AI. DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv:2501.12948, 2025. https://arxiv.org/abs/2501.12948

[13] Xinran Li et al. Getting Your LLMs Ready for Reinforcement Learning with Lightweight SFT. OpenReview / ICLR 2026. https://openreview.net/forum?id=yezWGJmODg

[14] Qiyuan Yu et al. DAPO: An Open-Source LLM Reinforcement Learning System at Scale. arXiv:2503.14476, 2025. https://arxiv.org/abs/2503.14476

[15] Jian Yao et al. Diversity-Aware Policy Optimization for Large Language Model Reasoning. arXiv:2505.23433, 2025. https://arxiv.org/abs/2505.23433

[16] Xingyu Dang et al. Assessing Diversity Collapse in Reasoning. OpenReview, 2025. https://openreview.net/forum?id=AMiKsHLjQh

[17] Jiarui Yao et al. Optimizing Chain-of-Thought Reasoners via Gradient Variance Minimization in Rejection Sampling and RL. arXiv:2505.02391, 2025. https://arxiv.org/abs/2505.02391

[18] Hieu Trung Nguyen et al. Adaptive Rollout Allocation for Online Reinforcement Learning with Verifiable Rewards. arXiv:2602.01601, 2026. https://arxiv.org/abs/2602.01601

[19] Wei Xiong et al. Reinforce-Ada: An Adaptive Sampling Framework for Reinforce-Style LLM Training. arXiv:2510.04996, 2025. https://arxiv.org/abs/2510.04996

Share on

Twitter Facebook LinkedIn