Hugging Face · Daily Papers

OpenSeeker-v2：用信息量高且高难度的轨迹推动搜索 agent 的极限

OpenSeeker-v2: Pushing the Limits of Search Agents with Informative and High-Difficulty Trajectories

Yuwen Du, Rui Ye, Shuo Tang, Keduan Huang, Xinyu Zhu, Yuzhu Cai, Siheng Chen

二〇二六年五月六日 · arXiv:2605.04036 · PDF · Code

摘要

深度搜索能力已成为前沿 Large Language Model（LLM）agent 不可或缺的能力，但其发展仍主要由工业巨头主导。典型的工业方案涉及一套资源消耗极高的流程，包括 pre-training、continual pre-training（CPT）、supervised fine-tuning（SFT）和 reinforcement learning（RL）。在本报告中，我们表明：如果使用信息量高且高难度的轨迹作为训练数据，简单的 SFT 方法也可以在训练前沿搜索 agent 时表现出相当强的能力。

通过引入三项简单的数据合成修改：扩大 knowledge graph 规模以支持更丰富的探索、扩展 tool set 规模以提供更广的功能，以及严格的低步数过滤，我们建立了一个更强的 baseline。OpenSeeker-v2 仅使用 10.6k 条数据训练，却在 4 个 benchmark 上取得了 state-of-the-art 性能（30B 规模、采用 ReAct paradigm 的 agent）：BrowseComp 上为 46.0%，BrowseComp-ZH 上为 58.1%，Humanity's Last Exam 上为 34.6%，xbench 上为 78.0%。这一结果甚至超过了使用重型 CPT+SFT+RL 流程训练的 Tongyi DeepResearch，后者对应成绩分别为 43.4%、46.7%、32.9% 和 75.0%。

值得注意的是，OpenSeeker-v2 是在其模型规模和范式内，首个由纯学术团队仅使用 SFT 开发出的 state-of-the-art 搜索 agent。我们将开源 OpenSeeker-v2 的模型权重，并分享这些简单而有效的发现，以降低社区开展前沿搜索 agent 研究的门槛。