録实録译稿议社区 24h

词术语频次

历封存归档

DPO

█▂ ▂ · 15 次 · 收录于 5 篇

Direct Preference Optimization · 直接偏好优化 · RLHF 的简化替代

专业化胜过规模化：多数AI采购决策忽视的战略变量研究 · HF Blog · 05-22
VeRL-Omni 发布：扩散与全模态模型的简易、快速、稳定 RL 训练工程 · vLLM · 05-18
rohitg00/从零开始的 AI 工程工程 · GitHub · 05-08
从噪声偏好中学习：一种面向 Direct Preference Optimization 的半监督学习方法 HF Papers · 05-02
ViPO：大规模视觉偏好优化 HF Papers · 05-02

更新于五月二十五日 09:40