録实録译稿议社区 24h

词术语频次

历封存归档

RLHF

▁▄█ · 65 次 · 收录于 19 篇

Reinforcement Learning from Human Feedback · 基于人类反馈的强化学习

解读今日开放-封闭性能差距研究 · Interconnects · 05-12
我一直在做的事：ATOM报告、后训练课程、完成书籍与持续研究研究 · Interconnects · 05-12
AWS 上基础模型训练与推理的构建模块工程 · HF Blog · 05-12
MiniCPM-V-4.6-gguf 工程 · OpenBMB · 05-12
MiniCPM-V-4.6-Thinking-gguf 产品 · OpenBMB · 05-11
MiniCPM-V-4.6-Thinking 产品 · OpenBMB · 05-11
MiniCPM-V-4.6-AWQ 产品 · OpenBMB · 05-11
MiniCPM-V-4.6-BNB 产品 · OpenBMB · 05-11
MiniCPM-V-4.6-GPTQ 产品 · OpenBMB · 05-11
MiniCPM-V-4.6-Thinking-AWQ 产品 · OpenBMB · 05-11
MiniCPM-V-4.6-Thinking-GPTQ 产品 · OpenBMB · 05-11
MiniCPM-V-4.6-Thinking-BNB 产品 · OpenBMB · 05-11
RVPO：通过方差正则化实现风险敏感对齐研究 · Apple ML · 05-09
教 Claude 理解为什么研究 · Anthropic Research · 05-09
MiniCPM-V-4_5-GPTQ 产品 · OpenBMB · 05-08
rohitg00/从零开始的 AI 工程工程 · GitHub · 05-08
文章讨论 reward hacking 及 LLM/RLHF 缓解研究研究 · X · 05-07
综述梳理 MOPD 在近期 LLM 后训练中的应用研究 · X · 05-07
在图像编辑中利用基于 Verifier 的强化学习 HF Papers · 05-01

更新于五月二十五日 09:40