实録译稿 社区 24h

术语频次

封存归档

RLHF

▁▄█ · 65 次 · 收录于 19 篇

Reinforcement Learning from Human Feedback · 基于人类反馈的强化学习

  1. 解读今日开放-封闭性能差距 研究 · Interconnects · 05-12
  2. 我一直在做的事:ATOM报告、后训练课程、完成书籍与持续研究 研究 · Interconnects · 05-12
  3. AWS 上基础模型训练与推理的构建模块 工程 · HF Blog · 05-12
  4. MiniCPM-V-4.6-gguf 工程 · OpenBMB · 05-12
  5. MiniCPM-V-4.6-Thinking-gguf 产品 · OpenBMB · 05-11
  6. MiniCPM-V-4.6-Thinking 产品 · OpenBMB · 05-11
  7. MiniCPM-V-4.6-AWQ 产品 · OpenBMB · 05-11
  8. MiniCPM-V-4.6-BNB 产品 · OpenBMB · 05-11
  9. MiniCPM-V-4.6-GPTQ 产品 · OpenBMB · 05-11
  10. MiniCPM-V-4.6-Thinking-AWQ 产品 · OpenBMB · 05-11
  11. MiniCPM-V-4.6-Thinking-GPTQ 产品 · OpenBMB · 05-11
  12. MiniCPM-V-4.6-Thinking-BNB 产品 · OpenBMB · 05-11
  13. RVPO:通过方差正则化实现风险敏感对齐 研究 · Apple ML · 05-09
  14. 教 Claude 理解为什么 研究 · Anthropic Research · 05-09
  15. MiniCPM-V-4_5-GPTQ 产品 · OpenBMB · 05-08
  16. rohitg00/从零开始的 AI 工程 工程 · GitHub · 05-08
  17. 文章讨论 reward hacking 及 LLM/RLHF 缓解研究 研究 · X · 05-07
  18. 综述梳理 MOPD 在近期 LLM 后训练中的应用 研究 · X · 05-07
  19. 在图像编辑中利用基于 Verifier 的强化学习 HF Papers · 05-01