Hugging Face · Daily Papers

FASH-iCNN：通过多模态 CNN 探测让编辑时尚身份可检视

FASH-iCNN: Making Editorial Fashion Identity Inspectable Through Multimodal CNN Probing

Morayo Danielle Adeyemi, Ryan A. Rossi, Franck Dernoncourt

二〇二六年五月三日 · arXiv:2604.26186 · PDF

摘要

Fashion AI 系统通常会编码特定 fashion house、编辑与历史时刻的审美逻辑，却不加披露。我们提出 FASH-iCNN，这是一个 multimodal 系统，训练数据来自 1991-2024 年间 15 个 fashion house 的 87,547 张 Vogue runway 图像，旨在使这种文化逻辑变得可检查。给定一张服装照片，系统可以恢复其出自哪个 fashion house、属于哪个时代，以及体现了哪种色彩传统。

一个仅使用服装图像的模型在 14 个 fashion house 上识别 fashion house 的 top-1 准确率为 78.2%，在识别 decade 时 top-1 准确率为 88.6%，在跨 34 年识别具体年份时 top-1 准确率为 58.3%，平均误差仅为 2.2 年。通过探查哪些视觉通道承载了这一信号，我们发现了明显的分离：去除色彩只会使 house identity 准确率下降 10.6 个百分点，而去除纹理会使其下降 37.6 个百分点，这表明纹理和亮度是编辑身份的主要载体。

FASH-iCNN 将编辑文化视为信号，而不是背景噪声；它识别出塑造每个输出的 fashion house、时代与色彩传统，使用户不仅能看到系统预测了什么，还能看到哪些 house、编辑与历史时刻被编码进了该预测。