一声棒喝,本不立文字
偏要著録,已是二义

Hugging Face · Daily Papers

OpenSeeker-v2:用信息量高且高难度的轨迹推动搜索 agent 的极限

OpenSeeker-v2: Pushing the Limits of Search Agents with Informative and High-Difficulty Trajectories

Yuwen Du, Rui Ye, Shuo Tang, Keduan Huang, Xinyu Zhu, Yuzhu Cai, Siheng Chen
二〇二六年五月六日 · arXiv:2605.04036 · PDF · Code

深度搜索能力已成为前沿 Large Language Model(LLM)agent 不可或缺的能力,但其发展仍主要由工业巨头主导。典型的工业方案涉及一套资源消耗极高的流程,包括 pre-training、continual pre-training(CPT)、supervised fine-tuning(SFT)和 reinforcement learning(RL)。在本报告中,我们表明:如果使用信息量高且高难度的轨迹作为训练数据,简单的 SFT 方法也可以在训练前沿搜索 agent 时表现出相当强的能力。

通过引入三项简单的数据合成修改:扩大 knowledge graph 规模以支持更丰富的探索、扩展 tool set 规模以提供更广的功能,以及严格的低步数过滤,我们建立了一个更强的 baseline。OpenSeeker-v2 仅使用 10.6k 条数据训练,却在 4 个 benchmark 上取得了 state-of-the-art 性能(30B 规模、采用 ReAct paradigm 的 agent):BrowseComp 上为 46.0%,BrowseComp-ZH 上为 58.1%,Humanity's Last Exam 上为 34.6%,xbench 上为 78.0%。这一结果甚至超过了使用重型 CPT+SFT+RL 流程训练的 Tongyi DeepResearch,后者对应成绩分别为 43.4%、46.7%、32.9% 和 75.0%。

值得注意的是,OpenSeeker-v2 是在其模型规模和范式内,首个由纯学术团队仅使用 SFT 开发出的 state-of-the-art 搜索 agent。我们将开源 OpenSeeker-v2 的模型权重,并分享这些简单而有效的发现,以降低社区开展前沿搜索 agent 研究的门槛。

译自 Hugging Face · Daily Papers · arXiv:2605.04036 · 录于 二〇二六年五月六日