一声棒喝,本不立文字
偏要著録,已是二义

Hugging Face · Daily Papers

证据链:用于迭代式 RAG 的像素级视觉归因

Chain of Evidence: Pixel-Level Visual Attribution for Iterative Retrieval-Augmented Generation

Peiyang Liu, Ziqiang Cui, Xi Wang, Di Liang, Wei Ye
二〇二六年五月六日 · arXiv:2605.01284 · PDF · Code

Iterative Retrieval-Augmented Generation(iRAG,迭代式检索增强生成)已成为回答复杂 multi-hop 问题的一种有效范式:它通过逐步检索外部文档并在其上进行推理来获得答案。然而,现有系统主要在解析后的文本上运行,这带来了两个关键瓶颈:(1)粗粒度归因:用户需要依据模糊的文本级引用,在冗长文档中手动定位证据;(2)视觉语义损失:将视觉信息丰富的文档(例如幻灯片、包含图表的 PDF)转换为文本时,会丢弃对推理至关重要的空间逻辑和布局线索。

为弥合这一差距,我们提出 Chain of Evidence(CoE),一种与 retriever 无关的视觉归因框架,利用 Vision-Language Models 直接对检索到的候选文档截图进行推理。CoE 不依赖特定格式的解析,并输出精确的 bounding boxes,在检索到的候选集合中可视化完整推理链。

我们在两个不同的 benchmark 上评估 CoE:Wiki-CoE,这是一个由 2WikiMultiHopQA 派生的大规模结构化网页数据集;以及 SlideVQA,这是一个具有复杂图示和自由布局的高难度演示幻灯片数据集。实验表明,fine-tuned Qwen3-VL-8B-Instruct 取得了稳健性能,在需要理解视觉布局的场景中显著优于基于文本的 baselines,同时为 pixel-level 可解释 iRAG 建立了一种与 retriever 无关的解决方案。我们的代码可在 https://github.com/PeiYangLiu/CoE.git 获取。

译自 Hugging Face · Daily Papers · arXiv:2605.01284 · 录于 二〇二六年五月六日