一声棒喝,本不立文字
偏要著録,已是二义

Hugging Face · Daily Papers

从噪声偏好中学习:一种面向 Direct Preference Optimization 的半监督学习方法

Learning from Noisy Preferences: A Semi-Supervised Learning Approach to Direct Preference Optimization

Xinxin Liu, Ming Li, Zonglin Lyu, Yuzhang Shang, Chen Chen
二〇二六年五月八日 · arXiv:2604.24952 · PDF

人类视觉偏好本质上是多维的,涵盖美学、细节保真度和语义对齐。然而,现有数据集通常只提供单一的整体标注,导致严重的标签噪声:在某些维度表现出色但在其他维度存在不足的图像,只会被简单标记为 winner 或 loser。我们从理论上证明,将多维偏好压缩为二元标签会产生相互冲突的梯度信号,从而误导 Diffusion Direct Preference Optimization(DPO)。

为解决这一问题,我们提出 Semi-DPO,一种半监督方法:将一致的样本对视为干净的有标签数据,将存在冲突的样本对视为有噪声的无标签数据。我们的方法首先在经过共识过滤的干净子集上训练,然后将该模型作为隐式分类器,为噪声数据集生成伪标签,并进行迭代优化。实验结果表明,Semi-DPO 达到了 SOTA 性能,并显著改善了与复杂人类偏好的对齐;在训练过程中无需额外的人类标注或显式 reward model。我们将在以下地址发布代码和模型:https://github.com/L-CodingSpace/semi-dpo

译自 Hugging Face · Daily Papers · arXiv:2604.24952 · 录于 二〇二六年五月八日