实録译稿 社区 24h

术语频次

封存归档

GRPO

▂█▂▁ · 54 次 · 收录于 18 篇

用于强化学习后训练的算法

  1. VeRL-Omni 发布:扩散与全模态模型的简易、快速、稳定 RL 训练 工程 · vLLM · 05-18
  2. MinT:训练与服务百万级LLM的托管基础设施 研究 · HF Papers · 05-14
  3. AWS 上基础模型训练与推理的构建模块 工程 · HF Blog · 05-12
  4. Flow-OPD:流匹配模型的在策略蒸馏 研究 · HF Papers · 05-12
  5. 在 Modal 上构建 RL 定理证明工作流 工程 · Modal · 05-09
  6. 克服奖励信号挑战:在 SageMaker AI 上使用 GRPO 进行基于可验证奖励的强化学习 工程 · AWS ML · 05-08
  7. 总结RL scaling laws与pretraining scaling laws的差异 研究 · X · 05-07
  8. NGC论文提出用RL训练LLM管理自身KV cache 研究 · X · 05-07
  9. 综述梳理 MOPD 在近期 LLM 后训练中的应用 研究 · X · 05-07
  10. OpenSearch-VL:面向前沿多模态搜索 agent 的开放方案 研究 · HF Papers · 05-07
  11. vLLM V0 到 V1:RL 中纠错前先确保正确性 工程 · HF Blog · 05-07
  12. Skills-Coach:通过免训练 GRPO 实现的自进化技能优化器 研究 · HF Papers · 05-06
  13. 面向医疗 agent 的 Healthcare AI GYM HF Papers · 05-06
  14. 超越 SFT-to-RL:通过 Black-Box On-Policy Distillation 进行多模态 RL 的预对齐 HF Papers · 05-06
  15. deepseek-ai/DeepSeek-V4-Pro 产品 · DeepSeek · 05-03
  16. deepseek-ai/DeepSeek-V4-Flash 产品 · DeepSeek · 05-03
  17. 使用端到端 FP8 精度运行高吞吐量强化学习训练 NVIDIA Developer · 05-03
  18. 在图像编辑中利用基于 Verifier 的强化学习 HF Papers · 05-01