重新思考推理密集型检索:评估并改进 Agentic 搜索系统中的检索器
Rethinking Reasoning-Intensive Retrieval: Evaluating and Advancing Retrievers in Agentic Search Systems
推理密集型检索旨在找出支持下游推理的证据,而不只是匹配主题相似性。随着 agentic search 系统的发展,这一能力变得越来越重要:在此类系统中,retriever 必须在迭代搜索与综合过程中提供互补证据。然而,现有工作在评估和训练两方面仍然有限:BRIGHT 等 benchmark 提供的 gold set 较窄,并且孤立地评估 retriever;而 synthetic training corpus 往往优化单篇 passage 的相关性,而不是证据组合的构建。
我们提出 BRIGHT-Pro,这是一个由专家标注的 benchmark,为每个 query 扩展了多方面的 gold evidence,并在 static 和 agentic search 两种协议下评估 retriever。我们进一步构建 RTriever-Synth,这是一个按 aspect 分解的 synthetic corpus,可生成互补的 positive 以及以 positive 为条件的 hard negative,并用它对来自 Qwen3-Embedding-4B 的 RTriever-4B 进行 LoRA fine-tuning。
在 lexical、general-purpose 和 reasoning-intensive retriever 上的实验表明,aspect-aware 和 agentic evaluation 能揭示标准 metrics 所掩盖的行为;同时,RTriever-4B 相比其 base model 有显著提升。