Hugging Face · Daily Papers

OpenSearch-VL：面向前沿多模态搜索 agent 的开放方案

OpenSearch-VL: An Open Recipe for Frontier Multimodal Search Agents

Shuang Chen, Kaituo Feng, Hangting Chen, Wenxuan Huang, Dasen Dai, Quanxin Shou, Yunlong Lin, Xiangyu Yue 等 10 位

来自 Tencent Hunyuan

二〇二六年五月七日 · arXiv:2605.05185 · PDF · Code

摘要

Deep search 已成为前沿 multimodal agent 的关键能力，使模型能够通过主动搜索、证据验证和多步推理来解决复杂问题。尽管进展迅速，顶级 multimodal search agent 仍然难以复现，主要原因在于缺乏开放的高质量训练数据、透明的轨迹合成流程，以及详细的训练方案。为此，我们提出 OpenSearch-VL：一个完全开源的 recipe，用于通过 agentic reinforcement learning 训练前沿 multimodal deep search agent。

首先，我们构建了一套专门的 pipeline，通过 Wikipedia 路径采样、模糊实体改写和 source-anchor visual grounding 来生成高质量训练数据；这些方法共同减少捷径行为和一步检索坍塌。基于该 pipeline，我们整理了两个训练数据集：用于 SFT 的 SearchVL-SFT-36k，以及用于 RL 的 SearchVL-RL-8k。此外，我们设计了一个多样化的工具环境，统一支持文本搜索、图像搜索、OCR、裁剪、锐化、超分辨率和透视校正，使 agent 能够将主动感知与外部知识获取结合起来。

最后，我们提出了一种 multi-turn fatal-aware GRPO 训练算法，通过屏蔽失败后的 token 来处理级联工具失败，同时利用单侧 advantage clamping 保留失败前的有效推理。基于这一 recipe，OpenSearch-VL 带来了显著的性能提升，在七个 benchmark 上平均提升超过 10 分，并在多个任务上达到与专有商业模型相当的结果。我们将发布所有数据、代码和模型，以支持 multimodal deep search agent 的开放研究。