Qwen · HF · 通义

Qwen-Image-Bench

Qwen-Image-Bench

二〇二六年六月六日 · 英文原文

Qwen团队发布Q-Judger,一个基于Qwen3.6-27B微调的评判模型,用于自动评估文本到图像(T2I)生成质量。模型按三级层次结构在质量、美学、对齐、真实世界保真度、创意生成5个顶层维度上评分,输出结构化JSON(0/1/2/N/A)。与人类专家排名的Spearman秩相关系数在总分上达0.92(p<10⁻⁴,N=18个模型)。模型、基准数据集及推理代码已在GitHub、HuggingFace和ModelScope开源。

Q-Judger

一个经过微调的评判模型,用于评估文本到图像(T2I)生成质量。该模型基于 Qwen3.6-27B 构建,使用结构化 checklist 在 5 个层级维度上对生成图像进行评分,并输出 JSON 格式的评估结果。

链接

资源 链接
📑 论文 TODO
📊 基准数据集 (HuggingFace) https://huggingface.co/datasets/Qwen/Qwen-Image-Bench
📊 基准数据集 (ModelScope) https://www.modelscope.cn/datasets/Qwen/Qwen-Image-Bench
💻 GitHub https://github.com/QwenLM/Qwen-Image-Bench
🧑‍⚖️ Q-Judger 模型 https://huggingface.co/Qwen/Qwen-Image-Bench
🧑‍⚖️ Q-Judger 模型 https://modelscope.cn/models/Qwen/Qwen-Image-Bench

模型描述

Q-Judger 是一个专门为自动评估文本到图像生成图像而微调的视觉语言模型。给定一个文本 prompt 和一张生成图像,模型会按照三级层次结构组织的细粒度质量标准进行评估,并输出结构化的 JSON 分数。

评估维度

模型在 5 个顶层维度上对图像进行评估,每个维度包含多个子维度:

质量

美学

对齐

真实世界保真度

创意生成

评分方法

原始分数映射

原始分数 含义 映射分数
0 失败 0
1 通过 60
2 优秀 100
N/A 不适用 排除

聚合

  1. Level-3 → Level-2:对 Level-2 类别内所有非 N/A 的 Level-3 分数取平均
  2. Level-2 → Level-1:对 Level-1 维度内所有 Level-2 分数取平均
  3. Level-1 → 总分:对所有 Level-1 维度分数取平均

人类一致性

我们通过计算模型排名与人类专家排名在五个 L1 支柱和总分上的 Spearman 秩相关系数($\rho$)来验证评判模型与人类专家的一致性。所有相关性均具有统计显著性($p < 10^{-4}$,$N = 18$ 个模型)。

维度 Spearman $\rho$
质量 0.89
美学 0.89
对齐 0.89
真实世界保真度 0.92
创意生成 0.92
总分 0.92

快速开始

获取推理代码

git clone https://github.com/QwenLM/Qwen-Image-Bench.git
cd Qwen-Image-Bench

安装

1. 使用 uv 创建并激活虚拟环境:

uv venv myenv --python 3.11
source myenv/bin/activate

2. 安装 PyTorch(选择与你的 CUDA 版本匹配的命令):

请参阅官方指南:https://pytorch.org/get-started/locally/

3. 安装 Python 依赖:

uv pip install -r requirements.txt

这将安装所有必需的依赖,包括 ms-swift。

运行推理

python judge.py \
  --input your_data.jsonl \
  --model Qwen/Qwen-Image-Bench

输入格式

准备一个包含以下列的 CSV、JSON 或 JSONL 文件:

类型 描述
ID int Prompt 标识符(1-1000),必须与基准元数据匹配
prompt str 用于生成图像的文本 prompt
image_path str 生成图像文件的路径

输出格式

模型为每个维度输出一个 JSON 对象,结构如下:

{
  "Level-2 Dimension": {
    "Level-3 Dimension": {"score": 0|1|2|"N/A"}
  }
}

示例(质量维度):

{
  "Realism": {
    "Physical Logic": {"score": 1},
    "Material Texture": {"score": 2}
  },
  "Detail": {
    "Noise": {"score": 1},
    "Edge Clarity": {"score": 1},
    "Naturalness": {"score": 1}
  },
  "Resolution": {
    "Resolution": {"score": 2}
  }
}

CLI 选项

参数 默认值 描述
--input (必需) 包含 ID、prompt、image_path 的输入 CSV/JSON/JSONL 文件
--model (必需) HuggingFace 模型 ID 或本地模型路径
--hf-bench-repo - 用于基准元数据的 HF 数据集仓库
--local-metadata - 本地元数据文件路径(覆盖默认值)
--max-batch-size 24 ms-swift 的 max_batch_size
--max-new-tokens 4096 最大生成 token 数

推理参数

评判模型使用固定的推理参数以确保可复现性:

参数
seed 42
temperature 0
top_k 1
top_p 1.0
repetition_penalty 1.05
max_new_tokens 4096
enable_thinking True
max_batch_size 24

引用

如果你觉得这个模型有用,请引用我们的论文:

@misc{li2026qwenimagebenchgenerationcreationtexttoimage,
      title={Qwen-Image-Bench: From Generation to Creation in Text-to-Image Evaluation}, 
      author={Niantong Li and Guangzheng Hu and Weixu Qiao and Ying Ba and Qichen Hong and Shijun Shen and Jinlin Wang and Fan Zhou and Jianye Kang and Xin Shang and Ziyi He and Wei Wang and Dalin Li and Jiahao Li and Jie Zhang and Kaiyuan Gao and Kun Yan and Lihan Jiang and Ningyuan Tang and Shengming Yin and Tianhe Wu and Xiao Xu and Xiaoyue Chen and Yuxiang Chen and Yan Shu and Yanran Zhang and Yilei Chen and Yixian Xu and Zekai Zhang and Zhendong Wang and Zihao Liu and Zikai Zhou and Hongzhu Shi and Yi Wang and Bing Zhao and Hu Wei and Lin Qu and Chenfei Wu},
      year={2026},
      eprint={2605.28091},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2605.28091}, 
}

许可证

本项目采用 Apache License 2.0 许可证。

译自 Qwen · HF · 通义 · 录于 二〇二六年六月六日