Hugging Face · Daily Papers

从噪声偏好中学习：一种面向 Direct Preference Optimization 的半监督学习方法

Learning from Noisy Preferences: A Semi-Supervised Learning Approach to Direct Preference Optimization

Xinxin Liu, Ming Li, Zonglin Lyu, Yuzhang Shang, Chen Chen

二〇二六年五月八日 · arXiv:2604.24952 · PDF

摘要

人类视觉偏好本质上是多维的，涵盖美学、细节保真度和语义对齐。然而，现有数据集通常只提供单一的整体标注，导致严重的标签噪声：在某些维度表现出色但在其他维度存在不足的图像，只会被简单标记为 winner 或 loser。我们从理论上证明，将多维偏好压缩为二元标签会产生相互冲突的梯度信号，从而误导 Diffusion Direct Preference Optimization（DPO）。

为解决这一问题，我们提出 Semi-DPO，一种半监督方法：将一致的样本对视为干净的有标签数据，将存在冲突的样本对视为有噪声的无标签数据。我们的方法首先在经过共识过滤的干净子集上训练，然后将该模型作为隐式分类器，为噪声数据集生成伪标签，并进行迭代优化。实验结果表明，Semi-DPO 达到了 SOTA 性能，并显著改善了与复杂人类偏好的对齐；在训练过程中无需额外的人类标注或显式 reward model。我们将在以下地址发布代码和模型：https://github.com/L-CodingSpace/semi-dpo