面向多模态智能体推理的智能体探索策略优化

Agent Explorative Policy Optimization for Multimodal Agentic Reasoning

Minki Kang, Shizhe Diao, Ryo Hachiuma, Sung Ju Hwang, Pavlo Molchanov, Yu-Chiang Frank Wang, Byung-Kwan Lee

来自 NVIDIA

二〇二六年五月二十八日 · arXiv:2605.28774 · PDF

摘要

具备扩展推理能力的视觉语言模型能够解决复杂问题，但许多现实问题需要借助外部工具，而仅靠内部推理往往无法解决。因此，智能体推理（agentic reasoning）需要交织两种结构不对称的行为：思考（thinking，即默认的自包含模式）与工具使用（tool use，即高方差辅助行为）。我们将这种不对称称为“思考-行动鸿沟”（Thinking-Acting Gap）。在GRPO等标准强化学习方案下，该鸿沟在训练中表现为两个诊断性症状：工具使用仅在约30%的rollout中被尝试；而当尝试时，组内使用工具的rollout在约40%的问题上全部出错，从而抑制了工具调用处所需的学习信号。为此，我们提出AXPO（Agent eXplorative Policy Optimization，智能体探索式策略优化）：对于每个全部出错的工具使用子组，AXPO固定思考前缀（thinking prefix），重新采样工具调用及其后续内容，并配合基于不确定性的前缀选择。在九个多模态基准测试和三种规模的Qwen3-VL-Thinking上，SFT+AXPO在平均性能上优于SFT+GRPO（8B模型平均Pass@1提升1.8个百分点，Pass@4提升1.8个百分点），且8B的SFT+AXPO在Pass@4上超越了32B基础模型，参数量仅为后者的四分之一。

译自 Hugging Face · Daily Papers · arXiv:2605.28774 · 录于二〇二六年五月二十八日