Hugging Face · Daily Papers
T^2PO:用于稳定多轮 Agentic 强化学习的不确定性引导探索控制
T^2PO: Uncertainty-Guided Exploration Control for Stable Multi-Turn Agentic Reinforcement Learning
摘要
多轮 reinforcement learning(RL)的最新进展显著提升了推理型 LLM 在复杂交互任务上的表现。尽管 fine-grained credit assignment 和 trajectory filtering 等稳定化技术已有进展,不稳定性仍然普遍存在,并且常常导致训练崩溃。我们认为,这种不稳定性源于多轮场景中的低效探索:policy 持续生成低信息量的 action,既不能降低不确定性,也无法推进任务进展。
为解决这一问题,我们提出 Token- and Turn-level Policy Optimization(T^2PO),这是一个 uncertainty-aware 框架,可在细粒度层面显式控制探索。在 token 层面,T^2PO 监测不确定性动态,并在边际不确定性变化低于阈值时触发 thinking intervention。在 turn 层面,T^2PO 识别探索进展可忽略的交互,并动态重新采样这些 turn,以避免浪费 rollout。
我们在包括 WebShop、ALFWorld 和 Search QA 在内的多种环境中评估了 T^2PO,结果表明其显著提升了训练稳定性和性能,并具有更高的探索效率。代码可在以下地址获取:https://github.com/WillDreamer/T2PO.