Hugging Face · Daily Papers

证据链：用于迭代式 RAG 的像素级视觉归因

Chain of Evidence: Pixel-Level Visual Attribution for Iterative Retrieval-Augmented Generation

Peiyang Liu, Ziqiang Cui, Xi Wang, Di Liang, Wei Ye

二〇二六年五月六日 · arXiv:2605.01284 · PDF · Code

摘要

Iterative Retrieval-Augmented Generation（iRAG，迭代式检索增强生成）已成为回答复杂 multi-hop 问题的一种有效范式：它通过逐步检索外部文档并在其上进行推理来获得答案。然而，现有系统主要在解析后的文本上运行，这带来了两个关键瓶颈：（1）粗粒度归因：用户需要依据模糊的文本级引用，在冗长文档中手动定位证据；（2）视觉语义损失：将视觉信息丰富的文档（例如幻灯片、包含图表的 PDF）转换为文本时，会丢弃对推理至关重要的空间逻辑和布局线索。

为弥合这一差距，我们提出 Chain of Evidence（CoE），一种与 retriever 无关的视觉归因框架，利用 Vision-Language Models 直接对检索到的候选文档截图进行推理。CoE 不依赖特定格式的解析，并输出精确的 bounding boxes，在检索到的候选集合中可视化完整推理链。

我们在两个不同的 benchmark 上评估 CoE：Wiki-CoE，这是一个由 2WikiMultiHopQA 派生的大规模结构化网页数据集；以及 SlideVQA，这是一个具有复杂图示和自由布局的高难度演示幻灯片数据集。实验表明，fine-tuned Qwen3-VL-8B-Instruct 取得了稳健性能，在需要理解视觉布局的场景中显著优于基于文本的 baselines，同时为 pixel-level 可解释 iRAG 建立了一种与 retriever 无关的解决方案。我们的代码可在 https://github.com/PeiYangLiu/CoE.git 获取。