Hugging Face · Daily Papers

重新思考推理密集型检索：评估并改进 Agentic 搜索系统中的检索器

Rethinking Reasoning-Intensive Retrieval: Evaluating and Advancing Retrievers in Agentic Search Systems

Yilun Zhao, Jinbiao Wei, Tingyu Song, Siyue Zhang, Chen Zhao, Arman Cohan

来自 Yale University

二〇二六年五月七日 · arXiv:2605.04018 · PDF · Code

摘要

推理密集型检索旨在找出支持下游推理的证据，而不只是匹配主题相似性。随着 agentic search 系统的发展，这一能力变得越来越重要：在此类系统中，retriever 必须在迭代搜索与综合过程中提供互补证据。然而，现有工作在评估和训练两方面仍然有限：BRIGHT 等 benchmark 提供的 gold set 较窄，并且孤立地评估 retriever；而 synthetic training corpus 往往优化单篇 passage 的相关性，而不是证据组合的构建。

我们提出 BRIGHT-Pro，这是一个由专家标注的 benchmark，为每个 query 扩展了多方面的 gold evidence，并在 static 和 agentic search 两种协议下评估 retriever。我们进一步构建 RTriever-Synth，这是一个按 aspect 分解的 synthetic corpus，可生成互补的 positive 以及以 positive 为条件的 hard negative，并用它对来自 Qwen3-Embedding-4B 的 RTriever-4B 进行 LoRA fine-tuning。

在 lexical、general-purpose 和 reasoning-intensive retriever 上的实验表明，aspect-aware 和 agentic evaluation 能揭示标准 metrics 所掩盖的行为；同时，RTriever-4B 相比其 base model 有显著提升。