Hugging Face · Daily Papers
用于跨文档 RAG 的层次化摘要树
Hierarchical Abstract Tree for Cross-Document Retrieval-Augmented Generation
摘要
Retrieval-augmented generation(RAG)通过外部知识增强 large language models,而基于树的 RAG 将文档组织为层级索引,以支持多种粒度的查询。然而,现有面向单文档检索设计的 Tree-RAG 方法在扩展到跨文档 multi-hop 问题时面临关键挑战:(1) 分布适应性差,k-means clustering 因僵硬的分布假设而引入噪声;(2) 结构隔离,tree index 缺乏显式的跨文档连接;(3) 抽象粒度过粗,掩盖了细粒度细节。
为解决这些限制,我们提出 Ψ-RAG,一个具有两个关键组件的 tree-RAG framework。第一,通过迭代式“合并与折叠”过程构建 hierarchical abstract tree index,使其无需先验假设即可适应数据分布。第二,一个 multi-granular retrieval agent,通过重组查询和由 agent 驱动的 hybrid retriever,智能地与知识库交互。Ψ-RAG 支持从 token-level 问答到 document-level 摘要的多样化任务。
在跨文档 multi-hop QA benchmark 上,Ψ-RAG 的平均 F1 score 比 RAPTOR 高 25.9%,比 HippoRAG 2 高 7.4%。代码见 https://github.com/Newiz430/Psi-RAG。