一声棒喝,本不立文字
偏要著録,已是二义

Hugging Face · Daily Papers

FASH-iCNN:通过多模态 CNN 探测让编辑时尚身份可检视

FASH-iCNN: Making Editorial Fashion Identity Inspectable Through Multimodal CNN Probing

Morayo Danielle Adeyemi, Ryan A. Rossi, Franck Dernoncourt
二〇二六年五月三日 · arXiv:2604.26186 · PDF

Fashion AI 系统通常会编码特定 fashion house、编辑与历史时刻的审美逻辑,却不加披露。我们提出 FASH-iCNN,这是一个 multimodal 系统,训练数据来自 1991-2024 年间 15 个 fashion house 的 87,547 张 Vogue runway 图像,旨在使这种文化逻辑变得可检查。给定一张服装照片,系统可以恢复其出自哪个 fashion house、属于哪个时代,以及体现了哪种色彩传统。

一个仅使用服装图像的模型在 14 个 fashion house 上识别 fashion house 的 top-1 准确率为 78.2%,在识别 decade 时 top-1 准确率为 88.6%,在跨 34 年识别具体年份时 top-1 准确率为 58.3%,平均误差仅为 2.2 年。通过探查哪些视觉通道承载了这一信号,我们发现了明显的分离:去除色彩只会使 house identity 准确率下降 10.6 个百分点,而去除纹理会使其下降 37.6 个百分点,这表明纹理和亮度是编辑身份的主要载体。

FASH-iCNN 将编辑文化视为信号,而不是背景噪声;它识别出塑造每个输出的 fashion house、时代与色彩传统,使用户不仅能看到系统预测了什么,还能看到哪些 house、编辑与历史时刻被编码进了该预测。

译自 Hugging Face · Daily Papers · arXiv:2604.26186 · 录于 二〇二六年五月三日