当前位置：首页 » AI智能体

Agentic RL：强化学习如何训练 AI Agent 的长周期决策能力

1小时前 AI智能体 10 0

大模型的强化学习训练走过了三个阶段：RLHF 告诉模型人类喜欢哪种回答，Reasoning RL 训练思维链（o1、DeepSeek R1），而现在正在发生的第三个阶段目标更大——训练模型在真实环境里持续行动的能力。这就是 Agentic RL：让 RL 的优化对象从一次回答，变成一个完整的 Agent 行为序列。

为什么单轮 RL 撑不住 Agent 场景

传统 RLHF 的流程只有四步：Prompt → Model → Answer → Reward。它建立在一个隐含假设上：一次交互完成一件事。但在真实的 Agent 场景中，写代码、做研究、操作浏览器需要持续几十步甚至几百步的交互，每一步都改变环境状态，而环境状态又影响下一步。

单轮 RL 只能为 Loop 的"输出结果"打一次分，但整个过程中模型做了几十个决策——工具调用、规划路径、错误纠正——这些都得不到训练信号。

MDP 里发生了什么变化

MDP（马尔可夫决策过程）包含五个要素：State、Action、Transition、Reward、Policy。传统 LLM RL 是一个高度退化的 MDP：State 是 Token 上下文，Action 是预测下一个 Token，Reward 在序列末尾给一次。整个训练过程在语言空间内自循环，从未接触外部世界。

Agentic RL 把这三个要素都扩展了：State 现在包含环境的真实状态，Action 会触发真实的代码执行或文件修改，Reward 需要在几十步的时间跨度里传播。更准确地说，这是一个 POMDP——模型永远只能看到环境的部分状态，必须在信息不完整的情况下做决策。

训练一个 Agent 需要什么基础设施

Agentic RL 的工程难度比同等规模的单轮 RL 高出不止一个量级，根源在于：每条训练样本都需要一个可执行的真实环境。

传统 RL 批量采样 512 个 Prompt，并行跑，收数据，更新。Agentic RL 的 512 个并行 Rollout，每个都需要独立的文件系统、代码执行环境、数据库状态。环境共享会导致状态污染，因此沙箱化是硬性要求。AgentGym-RL 论文记录：尝试并行启动 512 个 Docker 容器训练，Docker Daemon 直接崩溃，最终迁移到 Kubernetes 调度才解决扩展问题。

另一个瓶颈是长 Trajectory 的同步等待。100 步的 Rollout 可能需要几十分钟，同步批次下 GPU 要等最长 Trajectory 跑完才能更新——大部分时间空转。2025 年出现的全异步训练架构（ASearcher、AReaL）将 Trajectory 执行与模型参数更新完全解耦，让工具调用超过 100 轮、生成超过 400K Token 的极长任务成为现实。

三个代表性框架

ToRL：让模型自己发现工具的价值

ToRL（Tool-integrated RL）的出发点很简单：工具使用能力用 SFT 教不出来，因为 SFT 只能模仿示例，无法让模型理解"什么时候调工具比自己算更合适"。训练结果验证了这一点：训练前工具使用率约 40%，训练后上升到 80% 且持续增长。

ToRL 的一个设计细节是保留所有错误信息——代码执行遇到 NameError 或 SyntaxError 时，报错原样返回给模型，让模型形成真正的 Self-Correction 循环：读取具体报错 → 定位问题 → 修复代码 → 重试。

AgentGym-RL：课程学习与标准化环境

AgentGym-RL 提供统一的 HTTP API 接口，让 WebArena、SciWorld、Browser Agent、Research Agent 等不同任务环境可以接入同一套训练框架。核心算法贡献是 ScalingInter-RL——一种把课程学习应用到 Agentic RL 的训练策略：先在 8 步以内的短任务上训练，再扩展到 12 步，最终训练到 15 步及以上的长任务。先在短任务建立可靠基础，再逐步提升复杂度，训练稳定性显著改善。

Agent-R1：Step-Level MDP

Agent-R1 处理的问题更底层：多步 Agent 训练的数据表示问题。早期的框架把整个交互过程存成一条不断增长的 Token 序列，训练时要重新 Tokenize，会引入细微偏差（Retokenization Drift），且到了第 80 步模型必须背负前 79 步的全部 Token 历史。

Agent-R1 把每一步交互存成独立的 MDP 转移：(Observation_t, Action_t, Feedback_t, Reward_t, Done_t)。这个改变打开了三扇门：上下文可以被截断或压缩、信用分配可以精确到每个 Step、Rollout 与训练使用完全相同的 Token 数据。

2026 年 4 月发表的 StepPO 在此基础上实现了 Step-Level GAE，将价值估计和优势传播对齐到 Step 粒度，在 WebShop、ALFWorld、HotpotQA 等多个基准上取得了一致提升。

信用分配：仍然没有解决的难题

即便有了 Step-Level 的数据表示，Agentic RL 最核心的理论难题依然没有根本解决：长时程信用分配。想象一个 100 步的任务最终失败了——是第 7 步选错工具？第 43 步规划出错？还是第 91 步执行失误？稀疏的结果奖励无法回答这个问题。

目前有三种方向在同时推进：

Outcome Reward：只用结果奖励，代价是训练信号极度稀疏
Process Reward Model（PRM）：每步给中间评分，信号密集但需要大量人工标注
iStar（Implicit Step Reward）：联合训练隐式 PRM 和策略模型，通过 Trajectory 级别的偏好对比，自动推导每一步的隐式价值，不需要人工标注
EMPG：根据每步的不确定性动态调节更新幅度，对高置信度的正确行动放大梯度，对不确定的探索步骤抑制梯度

这些方向都指向同一个目标：让训练信号的密度和粒度，匹配 Agent 决策的真实复杂度。

正在收敛的方向

每一阶段的跃迁都是训练目标的扩展：从"输出是否符合偏好"，到"推理过程是否有效"，再到"在真实世界持续行动的能力是否可靠"。对工程实践的启示是：当 Agentic RL 成为主流，Environment、Skill、Harness、RL Pipeline 的质量，将成为比模型参数量更关键的竞争要素。

苏米注：Agentic RL 的演进轨迹很像软件开发从"手动部署"到"CI/CD"的转变——当训练目标从单次回答扩展到持续行动，基础设施的质量就成了决定性的瓶颈。沙箱化、异步训练、Step-Level MDP 这些看似工程细节的东西，恰恰是 AI 从"能对话"走向"能干活"的关键门槛。

声明：本站原创文章文字版权归本站所有，转载务必注明作者和出处；本站转载文章仅仅代表原作者观点，不代表本站立场，图文版权归原作者所有。如有侵权，请联系我们删除。

未经允许不得转载：Agentic RL：强化学习如何训练 AI Agent 的长周期决策能力

请登录后发表评论