Hugging Face · Daily Papers

当视觉为声音代言

When Vision Speaks for Sound

Xiaofei Wen, Wenjie Jacky Mo, Xingyu Fu, Rui Cai, Tinghui Zhu, Wendi Li, Yanan Xie, Muhao Chen 等 9 位
二〇二六年五月二十日 · arXiv:2605.16403 · PDF · Code

尽管视频多模态大语言模型(MLLM)取得了快速进展,但我们发现,它们在视频中的音频理解能力往往是由视觉驱动的:模型依赖视觉线索来推断或幻觉声学信息,而非验证音频流本身。这一问题同时出现在最先进的开源全能模型以及谷歌、OpenAI 等机构推出的领先闭源模型中。我们将这种失败模式定义为音视频 Clever Hans 效应——模型看似基于音频进行推理,实则利用视觉-声学相关性,而不验证音频与视觉流是否真正对齐。为系统研究这一行为,我们提出了 Thud,一种基于三种反事实音频编辑的干预驱动探测框架:Shift(测试时间同步性)、Mute(测试声音存在性)和 Swap(测试音视频一致性)。除诊断外,我们进一步研究了一种两阶段对齐方案:干预导出的偏好对用于训练音频验证能力,而事件级通用视频偏好则用于防止模型过度特化。我们最优的 10K 样本方案在三个干预维度上的平均性能提升了 28 个百分点,同时在通用视频和音视频问答基准上略有提升。

译自 Hugging Face · Daily Papers · arXiv:2605.16403 · 录于 二〇二六年五月二十日