CiteVQA：面向可信文档智能的证据归因基准测试

CiteVQA: Benchmarking Evidence Attribution for Trustworthy Document Intelligence

Dongsheng Ma, Jiayu Li, Zhengren Wang, Yijie Wang, Jiahao Kong, Weijun Zeng, Jutao Xiao, Jie Yang 等 11 位

来自 OpenDataLab

二〇二六年五月十八日 · arXiv:2605.12882 · PDF · Code

摘要

多模态大语言模型（MLLMs）在文档理解方面取得了显著进展，但当前的 Doc-VQA 评估仅对最终答案打分，而未检查支撑证据。这种仅关注答案的评估方式掩盖了一个关键失效模式：模型可能得出正确答案，却将其定位到错误的段落——在法律、金融和医学等高风险领域，每个结论都必须可追溯至特定来源区域，这一风险尤为严峻。为解决此问题，我们提出 CiteVQA 基准，要求模型在给出每个答案的同时返回元素级边界框引用，并对两者进行联合评估。CiteVQA 包含 711 份 PDF 中的 1,897 个问题，覆盖七个领域和两种语言，每份文档平均 40.6 页。为确保真实性和可扩展性，真实引用通过自动化流程生成——该流程利用掩码消融识别关键证据——随后经专家审核验证。我们评估的核心是严格归因准确率（SAA），仅当答案和引用区域均正确时才计分。对 20 个 MLLM 的审计揭示了一种普遍的归因幻觉：模型常产生正确答案，却引用错误区域。最强系统（Gemini-3.1-Pro-Preview）的 SAA 仅为 76.0，最强开源 MLLM 仅达 22.5。最终，面向可信文档智能，CiteVQA 暴露了仅答案评估所忽视的可靠性差距，并提供了弥合该差距所需的工具。我们的代码仓库位于 https://github.com/opendatalab/CiteVQA。

译自 Hugging Face · Daily Papers · arXiv:2605.12882 · 录于二〇二六年五月十八日