DPO
█▂ ▂
·
15 次
·
收录于 5 篇
Direct Preference Optimization · 直接偏好优化 · RLHF 的简化替代
-
专业化胜过规模化:多数AI采购决策忽视的战略变量
研究 · HF Blog · 05-22
-
VeRL-Omni 发布:扩散与全模态模型的简易、快速、稳定 RL 训练
工程 · vLLM · 05-18
-
rohitg00/从零开始的 AI 工程
工程 · GitHub · 05-08
-
从噪声偏好中学习:一种面向 Direct Preference Optimization 的半监督学习方法
HF Papers · 05-02
-
ViPO:大规模视觉偏好优化
HF Papers · 05-02