RLVR
▂█▂▃
·
32 次
·
收录于 8 篇
使用可验证奖励的强化学习
-
walkinglabs/learn-harness-engineering
工程 · GitHub · 05-23
-
DelTA: 基于可验证奖励的强化学习中的判别性令牌信用分配
研究 · HF Papers · 05-22
-
解读今日开放-封闭性能差距
研究 · Interconnects · 05-12
-
我一直在做的事:ATOM报告、后训练课程、完成书籍与持续研究
研究 · Interconnects · 05-12
-
克服奖励信号挑战:在 SageMaker AI 上使用 GRPO 进行基于可验证奖励的强化学习
工程 · AWS ML · 05-08
-
综述梳理 MOPD 在近期 LLM 后训练中的应用
研究 · X · 05-07
-
超越 SFT-to-RL:通过 Black-Box On-Policy Distillation 进行多模态 RL 的预对齐
HF Papers · 05-06
-
协同演化的策略蒸馏
HF Papers · 05-01