ERNIE-Image-Aes
ERNIE-Image-Aes
摘要
ERNIE-Image-Aes是一个8B参数量的视觉语言模型,用于图像美学评分。该模型基于ArtiMuse初始化,并在多样化、专业标注的数据集上微调,采用瑞士制锦标赛成对标注方法生成高质量训练标签。在ERIA-1K benchmark上,ERNIE-Image-Aes达到0.7445 SRCC和0.7598 PLCC,显著优于LAION-AES、ArtiMuse和UniPercept等现有美学预测器。该模型在摄影、动漫、设计、日常快照和胶片摄影等类别上实现均衡预测,对AI生成内容或黑白照片不存在系统性偏差。标注员来自中央美术学院、四川美术学院、中国传媒大学等专业背景。
ERNIE-Image-Aes:具备均衡类别泛化能力的鲁棒图像美学评分
[📄 论文]
🌟 亮点
ERNIE-Image-Aes 是一个 8B 参数量的视觉语言模型,用于图像美学评分。它基于 ArtiMuse 初始化,并在一个多样化、专业标注的数据集上进行了微调。在跨多种图像类别的泛化能力上,它显著优于现有的美学预测器(LAION-AES、ArtiMuse、UniPercept)。
主要优势:
- 在摄影、动漫、设计、日常快照和胶片摄影等类别上实现均衡预测
- 对特定图像类型(如 AI 生成内容或黑白照片)不存在系统性偏差
- 采用基于瑞士制锦标赛的成对标注方法,生成高质量训练标签
- 在 ERIA-1K benchmark 上达到 0.7445 SRCC 和 0.7598 PLCC
🔍 动机
现有的美学预测器存在系统性偏差:
| 模型 | 偏差 |
|---|---|
| LAION-Aesthetic | 对 AI 生成/动漫内容给出异常高分 |
| ArtiMuse | 对黑白摄影和日常快照评分偏高 |
| UniPercept | 强烈偏好单色图像;对日常快照评分偏高 |
ERNIE-Image-Aes 通过一个专门构建的、具有显式类别平衡的标注流程来解决这些失效模式。
📊 ERIA-1K Benchmark 结果
| 模型 | SRCC | PLCC |
|---|---|---|
| LAION AES | 0.2944 | 0.3138 |
| ArtiMuse | 0.4277 | 0.4704 |
| UniPercept | 0.4533 | 0.4748 |
| ERNIE-Image-Aes | 0.7445 | 0.7598 |
标注协议:
- 采用成对瑞士制锦标赛,确保稳定且可复现的排名
- 等级标签从 1 到 10
- 标注员来自专业背景(中央美术学院、四川美术学院、中国传媒大学等)
- 所有标注员在参与前均通过了美学校准筛选
⚙️ 设置
请遵循 ArtiMuse 仓库 中的设置说明。
🙏 致谢
我们的工作基于 ArtiMuse 和 InternVL-3。我们衷心感谢作者们对社区的杰出贡献。
✒️ 引用
如果您觉得这项工作有用,请考虑引用:
译自 Baidu · HF · 百度 · 录于 二〇二六年六月六日