实録译稿 社区 24h

术语频次

封存归档

DPO

█▂ ▂ · 15 次 · 收录于 5 篇

Direct Preference Optimization · 直接偏好优化 · RLHF 的简化替代

  1. 专业化胜过规模化:多数AI采购决策忽视的战略变量 研究 · HF Blog · 05-22
  2. VeRL-Omni 发布:扩散与全模态模型的简易、快速、稳定 RL 训练 工程 · vLLM · 05-18
  3. rohitg00/从零开始的 AI 工程 工程 · GitHub · 05-08
  4. 从噪声偏好中学习:一种面向 Direct Preference Optimization 的半监督学习方法 HF Papers · 05-02
  5. ViPO:大规模视觉偏好优化 HF Papers · 05-02