録实録译稿议社区 24h

词术语频次

历封存归档

GRPO

▂█▂▁ · 54 次 · 收录于 18 篇

用于强化学习后训练的算法

VeRL-Omni 发布：扩散与全模态模型的简易、快速、稳定 RL 训练工程 · vLLM · 05-18
MinT：训练与服务百万级LLM的托管基础设施研究 · HF Papers · 05-14
AWS 上基础模型训练与推理的构建模块工程 · HF Blog · 05-12
Flow-OPD：流匹配模型的在策略蒸馏研究 · HF Papers · 05-12
在 Modal 上构建 RL 定理证明工作流工程 · Modal · 05-09
克服奖励信号挑战：在 SageMaker AI 上使用 GRPO 进行基于可验证奖励的强化学习工程 · AWS ML · 05-08
总结RL scaling laws与pretraining scaling laws的差异研究 · X · 05-07
NGC论文提出用RL训练LLM管理自身KV cache 研究 · X · 05-07
综述梳理 MOPD 在近期 LLM 后训练中的应用研究 · X · 05-07
OpenSearch-VL：面向前沿多模态搜索 agent 的开放方案研究 · HF Papers · 05-07
vLLM V0 到 V1：RL 中纠错前先确保正确性工程 · HF Blog · 05-07
Skills-Coach：通过免训练 GRPO 实现的自进化技能优化器研究 · HF Papers · 05-06
面向医疗 agent 的 Healthcare AI GYM HF Papers · 05-06
超越 SFT-to-RL：通过 Black-Box On-Policy Distillation 进行多模态 RL 的预对齐 HF Papers · 05-06
deepseek-ai/DeepSeek-V4-Pro 产品 · DeepSeek · 05-03
deepseek-ai/DeepSeek-V4-Flash 产品 · DeepSeek · 05-03
使用端到端 FP8 精度运行高吞吐量强化学习训练 NVIDIA Developer · 05-03
在图像编辑中利用基于 Verifier 的强化学习 HF Papers · 05-01

更新于五月二十五日 09:40