Hugging Face · Daily Papers

ViPO：大规模视觉偏好优化

ViPO: Visual Preference Optimization at Scale

Ming Li, Jie Wu, Justin Cui, Xiaojie Li, Rui Wang, Chen Chen

二〇二六年五月一日 · arXiv:2604.24953 · PDF

摘要

尽管 preference optimization 对提升 visual generative model 至关重要，但如何有效扩展这一范式仍很大程度上尚未被探索。当前开源 preference dataset 包含相互冲突的 preference pattern：获胜样本在某些维度表现出色，却在其他维度表现较弱。在这类噪声数据集上进行朴素优化无法学到有效偏好，从而阻碍扩展。为增强对噪声的鲁棒性，我们提出 Poly-DPO，在 DPO objective 中加入额外的 polynomial term，根据数据集特性动态调整模型置信度，使其能够在多样的数据分布中有效学习。

除偏置模式外，现有数据集还存在分辨率低、prompt 多样性有限、分布不均衡等问题。为解决数据瓶颈、促进大规模 visual preference optimization，我们构建了 ViPO，这是一个大规模 preference dataset，包含五个类别下 1M 对 1024px 图像，以及三个类别下 300K 对 720p+ 视频。SOTA generative model 与多样化 prompt 确保了可靠的 preference signal 和均衡分布。值得注意的是，当将 Poly-DPO 应用于我们的高质量数据集时，最优配置会收敛到标准 DPO。这一收敛验证了数据集质量以及 Poly-DPO 的自适应特性：当数据质量足够高时，复杂优化不再必要，但在不完美数据集上仍然有价值。

我们在多种 visual generation model 上验证了该方法。在 Pick-a-Pic V2 等噪声数据集上，Poly-DPO 在 GenEval 上相较 Diffusion-DPO 分别为 SD1.5 和 SDXL 带来 6.87 和 2.32 的提升。对于 ViPO，在其上训练的模型性能远超使用现有开源 preference dataset 训练的模型。这些结果表明，同时解决算法自适应性和数据质量问题，是扩展 visual preference optimization 的关键。