一声棒喝,本不立文字
偏要著録,已是二义

Hugging Face · Daily Papers

OpenSearch-VL:面向前沿多模态搜索 agent 的开放方案

OpenSearch-VL: An Open Recipe for Frontier Multimodal Search Agents

Shuang Chen, Kaituo Feng, Hangting Chen, Wenxuan Huang, Dasen Dai, Quanxin Shou, Yunlong Lin, Xiangyu Yue 等 10 位
来自 Tencent Hunyuan
二〇二六年五月七日 · arXiv:2605.05185 · PDF · Code

Deep search 已成为前沿 multimodal agent 的关键能力,使模型能够通过主动搜索、证据验证和多步推理来解决复杂问题。尽管进展迅速,顶级 multimodal search agent 仍然难以复现,主要原因在于缺乏开放的高质量训练数据、透明的轨迹合成流程,以及详细的训练方案。为此,我们提出 OpenSearch-VL:一个完全开源的 recipe,用于通过 agentic reinforcement learning 训练前沿 multimodal deep search agent。

首先,我们构建了一套专门的 pipeline,通过 Wikipedia 路径采样、模糊实体改写和 source-anchor visual grounding 来生成高质量训练数据;这些方法共同减少捷径行为和一步检索坍塌。基于该 pipeline,我们整理了两个训练数据集:用于 SFT 的 SearchVL-SFT-36k,以及用于 RL 的 SearchVL-RL-8k。此外,我们设计了一个多样化的工具环境,统一支持文本搜索、图像搜索、OCR、裁剪、锐化、超分辨率和透视校正,使 agent 能够将主动感知与外部知识获取结合起来。

最后,我们提出了一种 multi-turn fatal-aware GRPO 训练算法,通过屏蔽失败后的 token 来处理级联工具失败,同时利用单侧 advantage clamping 保留失败前的有效推理。基于这一 recipe,OpenSearch-VL 带来了显著的性能提升,在七个 benchmark 上平均提升超过 10 分,并在多个任务上达到与专有商业模型相当的结果。我们将发布所有数据、代码和模型,以支持 multimodal deep search agent 的开放研究。

译自 Hugging Face · Daily Papers · arXiv:2605.05185 · 录于 二〇二六年五月七日