Hugging Face · Daily Papers

MulTaBench：基于文本与图像的多模态表格学习基准测试

MulTaBench: Benchmarking Multimodal Tabular Learning with Text and Image

Alan Arazi, Eilam Shapira, Shoham Grunblat, Mor Ventura, Elad Hoffer, Gioia Blayer, David Holzmüller, Lennart Purucker 等 11 位

来自 Technion Israel institute of technology

二〇二六年五月十四日 · arXiv:2605.10616 · PDF

摘要

表格基础模型（Tabular Foundation Models）近期通过预训练学习数值与类别型结构化数据的通用表征，在监督式表格学习任务中达到了当前最优水平。然而，这类模型对文本、图像等非结构化模态缺乏原生支持，只能依赖冻结的预训练嵌入来处理这些数据。在现有的多模态表格学习基准测试中，我们证明：根据任务对嵌入进行微调能够提升性能。但现有基准往往仅关注模态间的共现关系，这导致数据集间方差较大，掩盖了任务特定微调的优势。为弥补这一不足，我们提出MulTaBench基准，包含40个数据集，图像-表格与文本-表格任务各占一半。我们聚焦于模态间提供互补预测信号、且通用嵌入会丢失关键信息的预测任务，这类任务需要与目标对齐的"目标感知表征"（Target-Aware Representations）。实验结果表明，目标感知表征微调带来的增益可泛化至文本与图像两种模态、多种表格学习器、编码器规模及嵌入维度。MulTaBench是迄今规模最大的图像-表格基准测试，覆盖医疗健康、电子商务等高影响力领域。该基准旨在推动融合联合建模与目标感知表征的新型架构研究，为开发新一代多模态表格基础模型奠定基础。