感知还是偏见：MLLMs能否超越对人格的第一印象？

Perception or Prejudice: Can MLLMs Go Beyond First Impressions of Personality?

Caixin Kang, Tianyu Yan, Sitong Gong, Mingfang Zhang, Liangyang Ouyang, Ruicong Liu, Bo Zheng, Huchuan Lu 等 11 位

来自 The University of Tokyo

二〇二六年五月二十二日 · arXiv:2605.22109 · PDF · Code

摘要

多模态大语言模型（MLLMs）正越来越多地部署在需要感知人格特质的面向人类场景中，然而现有基准仅通过数值化的大五人格分数预测来评估这一能力，这留下了一个开放问题：模型究竟是真正通过行为理解来感知人格，还是仅通过表面模式匹配进行预判。我们通过三项贡献填补这一空白。（i）新任务：我们形式化定义了"有据人格推理"（GPR），要求MLLMs通过评分、推理和依据锚定这一链条，将每个大五人格评分锚定在可观察证据上。（ii）新数据集：我们发布MM-OCEAN（1,104个视频，5,320道多选题），该数据集通过多智能体流水线生成并经过人工验证，包含带时间戳的行为观察、基于证据的特质分析，以及七类线索锚定多选题。（iii）基准与分析：我们设计了三层评估（评分、推理、依据锚定），外加四个样本级失效模式指标：偏见率（PR）、虚构率（CR）、整合失败率（IR）和整体锚定率（HR），并对27个MLLMs（13个闭源、14个开源）进行了基准测试。分析揭示了一个惊人的"偏见鸿沟"：在整个领域中，51%的正确评分并未锚定于检索到的线索，而整体锚定率仅分布在0-33.5%之间。这些发现暴露了"得到正确分数"与"基于正确理由推理"之间的脱节，为MLLMs实现有据的社会认知绘制了路线图。

译自 Hugging Face · Daily Papers · arXiv:2605.22109 · 录于二〇二六年五月二十二日