词
历RLHF
Reinforcement Learning from Human Feedback · 基于人类反馈的强化学习
- 解读今日开放-封闭性能差距
- 我一直在做的事:ATOM报告、后训练课程、完成书籍与持续研究
- AWS 上基础模型训练与推理的构建模块
- MiniCPM-V-4.6-gguf
- MiniCPM-V-4.6-Thinking-gguf
- MiniCPM-V-4.6-Thinking
- MiniCPM-V-4.6-AWQ
- MiniCPM-V-4.6-BNB
- MiniCPM-V-4.6-GPTQ
- MiniCPM-V-4.6-Thinking-AWQ
- MiniCPM-V-4.6-Thinking-GPTQ
- MiniCPM-V-4.6-Thinking-BNB
- RVPO:通过方差正则化实现风险敏感对齐
- 教 Claude 理解为什么
- MiniCPM-V-4_5-GPTQ
- rohitg00/从零开始的 AI 工程
- 文章讨论 reward hacking 及 LLM/RLHF 缓解研究
- 综述梳理 MOPD 在近期 LLM 后训练中的应用
- 在图像编辑中利用基于 Verifier 的强化学习