Lens：重新思考基础文生图模型的训练效率

Lens: Rethinking Training Efficiency for Foundational Text-to-Image Models

Dong Chen, Fangyun Wei, Ziyu Wan, Dongdong Chen, Jiawei Zhang, Jinjing Zhao, Sirui Zhang, Yang Yue 等 21 位

来自 Microsoft

二〇二六年五月二十五日 · arXiv:2605.21573 · PDF · Code

摘要

我们提出 Lens，一个 3.8B 参数的 T2I 模型，在多项基准测试中性能与参数量超过 6B 的 SOTA 模型相当甚至更优，同时训练计算量显著降低。例如，Lens 仅需 Z-Image 约 19.3% 的训练计算量。Lens 的训练效率源于两个关键策略（除模型本身紧凑的参数量外）。首先，我们通过以下方式最大化每个训练批次的数据信息密度：(i) 在 Lens-800M 数据集上训练——该数据集包含 8 亿对由 GPT-4.1 生成的密集描述图文对，平均描述长度约 109 个单词，相比传统短描述提供更丰富的语义监督；(ii) 每个批次由多种分辨率和不同宽高比的图像构成，从而扩大每次优化步骤的有效视觉覆盖范围。其次，我们通过精心设计的架构选择提升收敛速度，包括采用能提供更好潜在表示的语义 VAE，以及使用强语言编码器加速优化，同时实现仅基于英文训练数据的多语言泛化能力。预训练后，我们应用基于分类学驱动提示的强化学习（Lens-RL-8K）和结构化奖励准则来抑制伪影并提升视觉质量；引入无需训练的推理器模块进行系统提示搜索，以更好地对齐用户请求与模型；并采用基于蒸馏的加速实现 4 步推理。通过高效训练和系统优化，Lens 可泛化至 1:2 到 2:1 的任意宽高比及最高 1440^2 的分辨率，并支持多种常用语言的提示。得益于紧凑的参数量，Lens 在单张 NVIDIA H100 GPU 上生成 1024^2 图像仅需 3.15 秒，其蒸馏加速版本可在 0.84 秒内完成 4 步生成。

译自 Hugging Face · Daily Papers · arXiv:2605.21573 · 录于二〇二六年五月二十五日