一声棒喝,本不立文字
偏要著録,已是二义

Hugging Face · Daily Papers

MulTaBench:基于文本与图像的多模态表格学习基准测试

MulTaBench: Benchmarking Multimodal Tabular Learning with Text and Image

Alan Arazi, Eilam Shapira, Shoham Grunblat, Mor Ventura, Elad Hoffer, Gioia Blayer, David Holzmüller, Lennart Purucker 等 11 位
来自 Technion Israel institute of technology
二〇二六年五月十四日 · arXiv:2605.10616 · PDF

表格基础模型(Tabular Foundation Models)近期通过预训练学习数值与类别型结构化数据的通用表征,在监督式表格学习任务中达到了当前最优水平。然而,这类模型对文本、图像等非结构化模态缺乏原生支持,只能依赖冻结的预训练嵌入来处理这些数据。在现有的多模态表格学习基准测试中,我们证明:根据任务对嵌入进行微调能够提升性能。但现有基准往往仅关注模态间的共现关系,这导致数据集间方差较大,掩盖了任务特定微调的优势。为弥补这一不足,我们提出MulTaBench基准,包含40个数据集,图像-表格与文本-表格任务各占一半。我们聚焦于模态间提供互补预测信号、且通用嵌入会丢失关键信息的预测任务,这类任务需要与目标对齐的"目标感知表征"(Target-Aware Representations)。实验结果表明,目标感知表征微调带来的增益可泛化至文本与图像两种模态、多种表格学习器、编码器规模及嵌入维度。MulTaBench是迄今规模最大的图像-表格基准测试,覆盖医疗健康、电子商务等高影响力领域。该基准旨在推动融合联合建模与目标感知表征的新型架构研究,为开发新一代多模态表格基础模型奠定基础。

译自 Hugging Face · Daily Papers · arXiv:2605.10616 · 录于 二〇二六年五月十四日