Qwen-Image-Bench

二〇二六年六月六日 · 英文原文

摘要

Qwen团队发布Q-Judger，一个基于Qwen3.6-27B微调的评判模型，用于自动评估文本到图像（T2I）生成质量。模型按三级层次结构在质量、美学、对齐、真实世界保真度、创意生成5个顶层维度上评分，输出结构化JSON（0/1/2/N/A）。与人类专家排名的Spearman秩相关系数在总分上达0.92（p<10⁻⁴，N=18个模型）。模型、基准数据集及推理代码已在GitHub、HuggingFace和ModelScope开源。

Q-Judger

一个经过微调的评判模型，用于评估文本到图像（T2I）生成质量。该模型基于 Qwen3.6-27B 构建，使用结构化 checklist 在 5 个层级维度上对生成图像进行评分，并输出 JSON 格式的评估结果。

链接

资源	链接
📑 论文	TODO
📊 基准数据集 (HuggingFace)	https://huggingface.co/datasets/Qwen/Qwen-Image-Bench
📊 基准数据集 (ModelScope)	https://www.modelscope.cn/datasets/Qwen/Qwen-Image-Bench
💻 GitHub	https://github.com/QwenLM/Qwen-Image-Bench
🧑‍⚖️ Q-Judger 模型	https://huggingface.co/Qwen/Qwen-Image-Bench
🧑‍⚖️ Q-Judger 模型	https://modelscope.cn/models/Qwen/Qwen-Image-Bench

模型描述

Q-Judger 是一个专门为自动评估文本到图像生成图像而微调的视觉语言模型。给定一个文本 prompt 和一张生成图像，模型会按照三级层次结构组织的细粒度质量标准进行评估，并输出结构化的 JSON 分数。

基础模型：Qwen3.6-27B
任务：图像质量评估 / 评判
输入：文本 prompt + 生成图像
输出：包含各维度分数的结构化 JSON（0 = 失败，1 = 通过，2 = 优秀，N/A = 不适用）
思考模式：已启用——模型在生成最终 JSON 输出之前会使用 chain-of-thought 推理

评估维度

模型在 5 个顶层维度上对图像进行评估，每个维度包含多个子维度：

质量

真实感：物理逻辑、材质纹理
细节：噪声、边缘清晰度、自然度
分辨率：分辨率

美学

构图：构图
色彩和谐：色彩和谐
光照：光照与氛围
解剖肖像：解剖保真度
情感表达：情感表达
风格控制：风格控制

对齐

属性：数量、面部表情、材质属性、颜色、形状、大小
动作：接触交互、非接触交互、全身动作
布局：2D 空间、3D 空间
关系：构成关系、差异/相似性、包含关系
场景：真实场景、虚拟场景

真实世界保真度

公平性：社会偏见、文化公平
安全与合规：安全与合规
世界知识：动物、物体、信息可视化、时间特征、文化元素

创意生成

想象力：想象力
特征匹配：特征匹配
逻辑解析：逻辑解析
文本渲染：文本准确性、文本布局、字体、跨语言生成
设计应用：平面设计、产品设计、空间设计、时尚造型、游戏设计、艺术设计
视觉叙事：电影风格、摄影/镜头风格、分镜创作、镜头景别、构图、角度、漫画创作

评分方法

原始分数映射

原始分数	含义	映射分数
0	失败	0
1	通过	60
2	优秀	100
N/A	不适用	排除

聚合

Level-3 → Level-2：对 Level-2 类别内所有非 N/A 的 Level-3 分数取平均
Level-2 → Level-1：对 Level-1 维度内所有 Level-2 分数取平均
Level-1 → 总分：对所有 Level-1 维度分数取平均

人类一致性

我们通过计算模型排名与人类专家排名在五个 L1 支柱和总分上的 Spearman 秩相关系数（$\rho$）来验证评判模型与人类专家的一致性。所有相关性均具有统计显著性（$p < 10^{-4}$，$N = 18$ 个模型）。

维度	Spearman $\rho$
质量	0.89
美学	0.89
对齐	0.89
真实世界保真度	0.92
创意生成	0.92
总分	0.92

快速开始

获取推理代码

git clone https://github.com/QwenLM/Qwen-Image-Bench.git
cd Qwen-Image-Bench

安装

1. 使用 uv 创建并激活虚拟环境：

uv venv myenv --python 3.11
source myenv/bin/activate

2. 安装 PyTorch（选择与你的 CUDA 版本匹配的命令）：

请参阅官方指南：https://pytorch.org/get-started/locally/

3. 安装 Python 依赖：

uv pip install -r requirements.txt

这将安装所有必需的依赖，包括 ms-swift。

运行推理

python judge.py \
  --input your_data.jsonl \
  --model Qwen/Qwen-Image-Bench

输入格式

准备一个包含以下列的 CSV、JSON 或 JSONL 文件：

列	类型	描述
`ID`	int	Prompt 标识符（1-1000），必须与基准元数据匹配
`prompt`	str	用于生成图像的文本 prompt
`image_path`	str	生成图像文件的路径

输出格式

模型为每个维度输出一个 JSON 对象，结构如下：

{
  "Level-2 Dimension": {
    "Level-3 Dimension": {"score": 0|1|2|"N/A"}
  }
}

示例（质量维度）：

{
  "Realism": {
    "Physical Logic": {"score": 1},
    "Material Texture": {"score": 2}
  },
  "Detail": {
    "Noise": {"score": 1},
    "Edge Clarity": {"score": 1},
    "Naturalness": {"score": 1}
  },
  "Resolution": {
    "Resolution": {"score": 2}
  }
}

CLI 选项

参数	默认值	描述
`--input`	（必需）	包含 ID、prompt、image_path 的输入 CSV/JSON/JSONL 文件
`--model`	（必需）	HuggingFace 模型 ID 或本地模型路径
`--hf-bench-repo`	-	用于基准元数据的 HF 数据集仓库
`--local-metadata`	-	本地元数据文件路径（覆盖默认值）
`--max-batch-size`	24	ms-swift 的 max_batch_size
`--max-new-tokens`	4096	最大生成 token 数

推理参数

评判模型使用固定的推理参数以确保可复现性：

参数	值
`seed`	42
`temperature`	0
`top_k`	1
`top_p`	1.0
`repetition_penalty`	1.05
`max_new_tokens`	4096
`enable_thinking`	True
`max_batch_size`	24

引用

如果你觉得这个模型有用，请引用我们的论文：

@misc{li2026qwenimagebenchgenerationcreationtexttoimage,
      title={Qwen-Image-Bench: From Generation to Creation in Text-to-Image Evaluation}, 
      author={Niantong Li and Guangzheng Hu and Weixu Qiao and Ying Ba and Qichen Hong and Shijun Shen and Jinlin Wang and Fan Zhou and Jianye Kang and Xin Shang and Ziyi He and Wei Wang and Dalin Li and Jiahao Li and Jie Zhang and Kaiyuan Gao and Kun Yan and Lihan Jiang and Ningyuan Tang and Shengming Yin and Tianhe Wu and Xiao Xu and Xiaoyue Chen and Yuxiang Chen and Yan Shu and Yanran Zhang and Yilei Chen and Yixian Xu and Zekai Zhang and Zhendong Wang and Zihao Liu and Zikai Zhou and Hongzhu Shi and Yi Wang and Bing Zhao and Hu Wei and Lin Qu and Chenfei Wu},
      year={2026},
      eprint={2605.28091},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2605.28091}, 
}

许可证

本项目采用 Apache License 2.0 许可证。

译自 Qwen · HF · 通义 · 录于二〇二六年六月六日