词
历GRPO
用于强化学习后训练的算法
- VeRL-Omni 发布:扩散与全模态模型的简易、快速、稳定 RL 训练
- MinT:训练与服务百万级LLM的托管基础设施
- AWS 上基础模型训练与推理的构建模块
- Flow-OPD:流匹配模型的在策略蒸馏
- 在 Modal 上构建 RL 定理证明工作流
- 克服奖励信号挑战:在 SageMaker AI 上使用 GRPO 进行基于可验证奖励的强化学习
- 总结RL scaling laws与pretraining scaling laws的差异
- NGC论文提出用RL训练LLM管理自身KV cache
- 综述梳理 MOPD 在近期 LLM 后训练中的应用
- OpenSearch-VL:面向前沿多模态搜索 agent 的开放方案
- vLLM V0 到 V1:RL 中纠错前先确保正确性
- Skills-Coach:通过免训练 GRPO 实现的自进化技能优化器
- 面向医疗 agent 的 Healthcare AI GYM
- 超越 SFT-to-RL:通过 Black-Box On-Policy Distillation 进行多模态 RL 的预对齐
- deepseek-ai/DeepSeek-V4-Pro
- deepseek-ai/DeepSeek-V4-Flash
- 使用端到端 FP8 精度运行高吞吐量强化学习训练
- 在图像编辑中利用基于 Verifier 的强化学习