GrepSeek：训练搜索代理实现直接语料交互

GrepSeek: Training Search Agents for Direct Corpus Interaction

Alireza Salemi, Chang Zeng, Atharva Nijasure, Jui-Hui Chung, Razieh Rahimi, Fernando Diaz, Hamed Zamani

来自 University of Massachusetts Amherst

二〇二六年六月一日 · arXiv:2605.29307 · PDF · Code

摘要

大型语言模型（LLM）搜索智能体通过多轮推理和信息检索，在知识密集型语言任务中展现出强大潜力。现有系统大多依赖检索器，该检索器接收关键词或自然语言查询，利用预计算文档表示的索引返回排序后的文档列表。本研究探索了一种互补视角：将语料库本身视为搜索环境，搜索智能体通过执行可执行的 shell 命令来寻找证据。我们提出 GrepSeek，一种优化的直接语料交互（DCI）搜索智能体，它训练一个紧凑的搜索智能体从大型文本语料库中查找、筛选并组合证据。为解决直接在大规模语料库上使用强化学习进行行为学习的不稳定性，我们提出两阶段训练流程。首先，利用答案感知的 Tutor 和答案盲的 Planner 构建冷启动数据集，生成经过验证且因果有据的搜索轨迹。其次，使用组相对策略优化（GRPO）对初始策略进行精调，使智能体通过与语料库的直接交互来改进其面向任务的搜索行为。为使 DCI 在规模上实用化，我们进一步采用语义保持的分片并行执行引擎，将基于 shell 的检索加速最高达 7.6 倍，同时保持与 shell 命令顺序执行在字节级别上的精确等价。在七个开放域问答基准上的实验表明，GrepSeek 在整体 token 级 F_1 和精确匹配（Exact Match）上取得了最强结果。我们的分析还揭示了纯词法交互在表面形式变化较大的查询上的局限性，表明 DCI 是一种实用且具有竞争力的搜索智能体方法，可在现实世界中补充现有检索范式。

译自 Hugging Face · Daily Papers · arXiv:2605.29307 · 录于二〇二六年六月一日