Lens:重新思考基础文生图模型的训练效率
Lens: Rethinking Training Efficiency for Foundational Text-to-Image Models
我们提出 Lens,一个 3.8B 参数的 T2I 模型,在多项基准测试中性能与参数量超过 6B 的 SOTA 模型相当甚至更优,同时训练计算量显著降低。例如,Lens 仅需 Z-Image 约 19.3% 的训练计算量。Lens 的训练效率源于两个关键策略(除模型本身紧凑的参数量外)。首先,我们通过以下方式最大化每个训练批次的数据信息密度:(i) 在 Lens-800M 数据集上训练——该数据集包含 8 亿对由 GPT-4.1 生成的密集描述图文对,平均描述长度约 109 个单词,相比传统短描述提供更丰富的语义监督;(ii) 每个批次由多种分辨率和不同宽高比的图像构成,从而扩大每次优化步骤的有效视觉覆盖范围。其次,我们通过精心设计的架构选择提升收敛速度,包括采用能提供更好潜在表示的语义 VAE,以及使用强语言编码器加速优化,同时实现仅基于英文训练数据的多语言泛化能力。预训练后,我们应用基于分类学驱动提示的强化学习(Lens-RL-8K)和结构化奖励准则来抑制伪影并提升视觉质量;引入无需训练的推理器模块进行系统提示搜索,以更好地对齐用户请求与模型;并采用基于蒸馏的加速实现 4 步推理。通过高效训练和系统优化,Lens 可泛化至 1:2 到 2:1 的任意宽高比及最高 1440^2 的分辨率,并支持多种常用语言的提示。得益于紧凑的参数量,Lens 在单张 NVIDIA H100 GPU 上生成 1024^2 图像仅需 3.15 秒,其蒸馏加速版本可在 0.84 秒内完成 4 步生成。