Hugging Face · Daily Papers

面向多模态智能体推理的智能体探索策略优化

Agent Explorative Policy Optimization for Multimodal Agentic Reasoning

Minki Kang, Shizhe Diao, Ryo Hachiuma, Sung Ju Hwang, Pavlo Molchanov, Yu-Chiang Frank Wang, Byung-Kwan Lee
来自 NVIDIA
二〇二六年五月二十八日 · arXiv:2605.28774 · PDF

具备扩展推理能力的视觉语言模型能够解决复杂问题,但许多现实问题需要借助外部工具,而仅靠内部推理往往无法解决。因此,智能体推理(agentic reasoning)需要交织两种结构不对称的行为:思考(thinking,即默认的自包含模式)与工具使用(tool use,即高方差辅助行为)。我们将这种不对称称为“思考-行动鸿沟”(Thinking-Acting Gap)。在GRPO等标准强化学习方案下,该鸿沟在训练中表现为两个诊断性症状:工具使用仅在约30%的rollout中被尝试;而当尝试时,组内使用工具的rollout在约40%的问题上全部出错,从而抑制了工具调用处所需的学习信号。为此,我们提出AXPO(Agent eXplorative Policy Optimization,智能体探索式策略优化):对于每个全部出错的工具使用子组,AXPO固定思考前缀(thinking prefix),重新采样工具调用及其后续内容,并配合基于不确定性的前缀选择。在九个多模态基准测试和三种规模的Qwen3-VL-Thinking上,SFT+AXPO在平均性能上优于SFT+GRPO(8B模型平均Pass@1提升1.8个百分点,Pass@4提升1.8个百分点),且8B的SFT+AXPO在Pass@4上超越了32B基础模型,参数量仅为后者的四分之一。

译自 Hugging Face · Daily Papers · arXiv:2605.28774 · 录于 二〇二六年五月二十八日