Hugging Face · Daily Papers

T^2PO：用于稳定多轮 Agentic 强化学习的不确定性引导探索控制

T^2PO: Uncertainty-Guided Exploration Control for Stable Multi-Turn Agentic Reinforcement Learning

Haixin Wang, Hejie Cui, Chenwei Zhang, Xin Liu, Shuowei Jin, Shijie Geng, Xinyang Zhang, Nasser Zalmout 等 10 位

二〇二六年五月五日 · arXiv:2605.02178 · PDF · Code

摘要

多轮 reinforcement learning（RL）的最新进展显著提升了推理型 LLM 在复杂交互任务上的表现。尽管 fine-grained credit assignment 和 trajectory filtering 等稳定化技术已有进展，不稳定性仍然普遍存在，并且常常导致训练崩溃。我们认为，这种不稳定性源于多轮场景中的低效探索：policy 持续生成低信息量的 action，既不能降低不确定性，也无法推进任务进展。

为解决这一问题，我们提出 Token- and Turn-level Policy Optimization（T^2PO），这是一个 uncertainty-aware 框架，可在细粒度层面显式控制探索。在 token 层面，T^2PO 监测不确定性动态，并在边际不确定性变化低于阈值时触发 thinking intervention。在 turn 层面，T^2PO 识别探索进展可忽略的交互，并动态重新采样这些 turn，以避免浪费 rollout。

我们在包括 WebShop、ALFWorld 和 Search QA 在内的多种环境中评估了 T^2PO，结果表明其显著提升了训练稳定性和性能，并具有更高的探索效率。代码可在以下地址获取：https://github.com/WillDreamer/T2PO.