ViPO:大规模视觉偏好优化
ViPO: Visual Preference Optimization at Scale
尽管 preference optimization 对提升 visual generative model 至关重要,但如何有效扩展这一范式仍很大程度上尚未被探索。当前开源 preference dataset 包含相互冲突的 preference pattern:获胜样本在某些维度表现出色,却在其他维度表现较弱。在这类噪声数据集上进行朴素优化无法学到有效偏好,从而阻碍扩展。为增强对噪声的鲁棒性,我们提出 Poly-DPO,在 DPO objective 中加入额外的 polynomial term,根据数据集特性动态调整模型置信度,使其能够在多样的数据分布中有效学习。
除偏置模式外,现有数据集还存在分辨率低、prompt 多样性有限、分布不均衡等问题。为解决数据瓶颈、促进大规模 visual preference optimization,我们构建了 ViPO,这是一个大规模 preference dataset,包含五个类别下 1M 对 1024px 图像,以及三个类别下 300K 对 720p+ 视频。SOTA generative model 与多样化 prompt 确保了可靠的 preference signal 和均衡分布。值得注意的是,当将 Poly-DPO 应用于我们的高质量数据集时,最优配置会收敛到标准 DPO。这一收敛验证了数据集质量以及 Poly-DPO 的自适应特性:当数据质量足够高时,复杂优化不再必要,但在不完美数据集上仍然有价值。
我们在多种 visual generation model 上验证了该方法。在 Pick-a-Pic V2 等噪声数据集上,Poly-DPO 在 GenEval 上相较 Diffusion-DPO 分别为 SD1.5 和 SDXL 带来 6.87 和 2.32 的提升。对于 ViPO,在其上训练的模型性能远超使用现有开源 preference dataset 训练的模型。这些结果表明,同时解决算法自适应性和数据质量问题,是扩展 visual preference optimization 的关键。