Hugging Face · Daily Papers

CiteVQA:面向可信文档智能的证据归因基准测试

CiteVQA: Benchmarking Evidence Attribution for Trustworthy Document Intelligence

Dongsheng Ma, Jiayu Li, Zhengren Wang, Yijie Wang, Jiahao Kong, Weijun Zeng, Jutao Xiao, Jie Yang 等 11 位
来自 OpenDataLab
二〇二六年五月十八日 · arXiv:2605.12882 · PDF · Code

多模态大语言模型(MLLMs)在文档理解方面取得了显著进展,但当前的 Doc-VQA 评估仅对最终答案打分,而未检查支撑证据。这种仅关注答案的评估方式掩盖了一个关键失效模式:模型可能得出正确答案,却将其定位到错误的段落——在法律、金融和医学等高风险领域,每个结论都必须可追溯至特定来源区域,这一风险尤为严峻。为解决此问题,我们提出 CiteVQA 基准,要求模型在给出每个答案的同时返回元素级边界框引用,并对两者进行联合评估。CiteVQA 包含 711 份 PDF 中的 1,897 个问题,覆盖七个领域和两种语言,每份文档平均 40.6 页。为确保真实性和可扩展性,真实引用通过自动化流程生成——该流程利用掩码消融识别关键证据——随后经专家审核验证。我们评估的核心是严格归因准确率(SAA),仅当答案和引用区域均正确时才计分。对 20 个 MLLM 的审计揭示了一种普遍的归因幻觉:模型常产生正确答案,却引用错误区域。最强系统(Gemini-3.1-Pro-Preview)的 SAA 仅为 76.0,最强开源 MLLM 仅达 22.5。最终,面向可信文档智能,CiteVQA 暴露了仅答案评估所忽视的可靠性差距,并提供了弥合该差距所需的工具。我们的代码仓库位于 https://github.com/opendatalab/CiteVQA。

译自 Hugging Face · Daily Papers · arXiv:2605.12882 · 录于 二〇二六年五月十八日