OPID:在线策略技能蒸馏,让智能体学习无需外部记忆

OPID:在线策略技能蒸馏,让智能体学习无需外部记忆
OPID: On-Policy Skill Distillation for Agentic Reinforcement Learning作者Shuo Yang, Jinyang Wu, Zhengxi Lu, Yuhao Shen, Fan Zhang, Lang Feng, Shuai Zhang, Haoran Luo, Zheng Lian, Zhengqi Wen, Jianhua Tao核心发表机构论文源码未明确标注或暂未可靠识别论文链接arXiv:2606.26790v1发布于arXiv 预印本cs.CL—|------|----------|----------|------|| Qwen2.5-3B | ALFWorld | 75.0 |84.3| 9.3 || | Search-based QA | 36.4 |45.0| 8.6 || | WebShop | 63.3 |74.2| 10.9 || Qwen2.5-7B | ALFWorld | 81.2 |90.0| 8.8 || | Search-based QA | 42.0 |49.2| 7.2 || | WebShop | 72.6 |79.7| 7.1 || Qwen3-1.7B | ALFWorld | 46.1 |58.9| 12.8 || | WebShop | 38.3 |64.8| 26.5 |在搜索QA任务上Qwen3-1.7B的OPID性能40.4与GRPO40.8相当其余设置均有显著提升。下图的总体性能对比展示了OPID在多个基准上的平均表现最优OPID的一个重要特性是它将技能内化到策略参数中而无需在推理时依赖技能提示。与Skill-GRPO*推理时注入技能相比OPID在多数设置下仍能超越或匹配其性能。例如在Qwen2.5-3B上OPID在ALFWorld达到84.3高于Skill-GRPO的80.5在搜索QA上OPID达到45.0也显著高于Skill-GRPO的36.1。而当验证时移除技能Skill-GRPO性能大幅下降如Qwen2.5-3B ALFWorld下降14.8分而OPID无此落差。训练动态曲线进一步揭示了OPID的收益来源在中后期阶段OPID与GRPO发生分歧并持续保持优势。同时OPID将平均回合长度减少到15-16步而GRPO为17-18步说明OPID学到了更直接的行动序列。在样本效率分析中OPID在所有训练数据比例下均优于GRPO绝对增益在9.3到20.3分之间。更值得注意的是使用60%数据时OPID达到71.9接近GRPO全数据75.0使用80%数据时OPID已超越GRPO全数据78.9 vs 75.0在跨域泛化ALFWorld Unseen场景上OPID平均成功率为78.6超过GRPO的70.9提升了7.7分定性分析进一步揭示了OPID的优势。在一个“清洁锅铲并放入餐桌”的ALFWorld任务中GRPO智能体在第4步产生“幻觉目标”错误试图从台面拿取不存在的锅铲随后用勺子替代最终在30步限制内未能完成放置。而OPID智能体遵循连贯的“定位-清洁-放置”工作流每一步都基于当前观察进行接地操作在6步内完成任务下图展示了OPID在训练过程中值得关注的两个定量特征平均关键步骤数以及两种优势信号episode-level outcome advantage和skill-guided advantage的幅度变化4.3 消融实验 / Ablation Study分层技能的影响。在Qwen2.5-3B-Instruct上的消融实验验证了两种粒度技能的互补性方法ALFWorld Avg.WebShop Score/Succ.OPID全84.385.0 / 74.2w/o episode skill74.178.4 / 67.2w/o step skill79.180.2 / 65.6移除任一种技能粒度均导致显著性能下降其中移除episode-level技能的影响尤其明显ALFWorld下降10.2WebShop成功率下降7.0说明全局工作流和失败规避规则提供了重要的默认信号。移除step-level技能同样带来约5-9个点的下降证明局部关键决策知识不可或缺。关键优先路由的影响。与非路由变体每个步骤同时注入episode-level和step-level技能比较方法ALFWorld Avg.OPID关键优先路由84.3w/o Routing叠加77.5移除关键优先路由机制导致平均性能下降6.8分验证了其必要性。直接叠加两种技能可能引入冲突或信息冗余而关键优先的选择性路由确保了最合适的指导粒度。五、相关工作 / Related Work结果驱动强化学习。以GRPO为代表的方法通过组相对标准化提供稳定的序列级奖励信号但在长时域交互中稀疏的轨迹级奖励无法提供中间步骤的信用分配。OPID保留了RL作为主要优化目标在此基础上增加token级监督信号。On-policy自蒸馏与技能蒸馏。以往的自蒸馏方法如OPSD、RLSD、SDAR通常使用辅助token级损失或外部技能上下文。Skill-GRPO在训练和推理时可能依赖技能提示导致训练-测试不一致。OPID通过从当前策略的on-policy轨迹中提取层级后见之明技能并通过整合到优势函数中与RL目标融合无需外部记忆或检索。技能条件智能体学习。现有方法依赖外部技能库或持久化记忆存在维护成本高和分布不匹配的问题。OPID直接从当前策略的已完成轨迹中提取技能保证了分布匹配且推理时无需技能库。六、局限性与展望 / Limitations Future Work尽管OPID在多个基准上取得了显著提升但仍存在一些局限性和未来改进方向临界性检测的依赖性。OPID的有效性依赖于分析器A \mathcal{A}A对关键时间步的准确识别。理论分析表明关键优先路由的性能退化受教师专业化误差Γ \GammaΓ与检测错误率Pr ⁡ ( z ^ i ≠ z i ⋆ ) \Pr(\widehat z_i \ne z_i^\star)Pr(zi​zi⋆​)的乘积控制。目前分析器通过LLM提示实现其检测准确率在任务间存在差异。未来工作可以探索更鲁棒的、无需显式分析的临界性检测方法例如利用学习到的状态价值函数或注意力模式来隐式识别关键步骤。理论差距。理论分析指出未经裁剪的OPID技能损失在行为策略处局部近似于反向KL蒸馏但在全局范围内并不等价。这意味着不当的λ s k i l l \lambda_{\mathrm{skill}}λskill​选择或大更新步长可能导致策略概率的坍缩collapsing。虽然PPO裁剪和实际实现中的约束条件在一定程度上缓解了这一问题但设计能够精确匹配反向KL蒸馏的同时保持on-policy稳定性的方法仍是一个有价值的研究方向。计算开销。虽然推理时无额外开销但训练时引入的分析器A \mathcal{A}A一个额外的LLM调用和技能增强上下文下的重复评分对每个采样响应进行两次前向传播增加了计算成本。尤其是在大规模batch或长响应场景下这种开销可能变得显著。未来的工作可以探索更轻量的技能提取方法或通过并行计算、异步流水线等方式优化训练效率。性能差异。在Qwen3-1.7B上OPID在搜索QA任务中的性能与GRPO相当而非超越表明方法在较小模型和某些任务组合上可能增益有限。这可能是因为小模型的容量限制了其内化复杂、多层次技能的能力。七、总结 / ConclusionOPID提出了一种新颖的on-policy技能蒸馏框架通过直接从当前策略的已完成轨迹中提取层次化后见之明技能并利用关键优先路由机制将技能转化为密集的自蒸馏监督信号解决了结果RL的稀疏奖励信用分配问题和外部技能库的分布不匹配问题。该方法保留了RL作为主要优化目标在ALFWorld、WebShop和Search-based QA三个基准上一致提升了智能体性能、样本效率和鲁棒性且推理时无需外部技能库或特权上下文实现了技能的内化。OPID证明了智能体的历史轨迹不仅是奖励优化的样本更是可重复使用的决策知识记录为长时域agentic任务提供了一种更有效的信用分配机制。原文摘要:Outcome-based reinforcement learning provides a stable optimization backbone for language agents, but its sparse trajectory-level rewards provide little guidance on which intermediate decisions should be reinforced or suppressed. On-policy self-distillation offers dense token-level supervision, yet existing skill-conditioned variants often rely on external skill memories or retrieved privileged context, which are costly to maintain and can be mismatched with the state distribution induced by the current policy in multi-turn interaction. We propose \textbf{OPID} (\textbf{O}n-\textbf{P}olicy Sk\textbf{i}ll \textbf{D}istillation), a framework that extracts skill supervision directly from completed on-policy trajectories. OPID represents trajectory hindsight as hierarchical skills: episode-level skills capture global workflows or failure-avoidance rules, while step-level skills capture local decision knowledge at critical timesteps. A critical-first routing mechanism uses step-level skills when critical decisions are identified and falls back to episode-level skills as default guidance otherwise. The selected skill is injected into the interaction history, allowing the old policy to re-score the same sampled response under both original and skill-augmented contexts. The resulting log-probability shift yields a token-level self-distillation advantage, which is combined with the outcome advantage for policy optimization. OPID thus preserves RL as the primary training objective while introducing dense, distribution-matched hindsight supervision. Experiments on ALFWorld, WebShop and Search-based QA demonstrate that OPID generally improves agent performance, sample efficiency, and robustness over outcome-only RL and existing skill-distillation baselines. Our code is available at https://github.com/jinyangwu/OPID/tree/main.PDF链接:https://arxiv.org/pdf/2606.26790v1部分平台可能图片显示异常请以我的博客内容为准