録实録译稿议社区 24h

词术语频次

历封存归档

RLVR

▂█▂▃ · 32 次 · 收录于 8 篇

使用可验证奖励的强化学习

walkinglabs/learn-harness-engineering 工程 · GitHub · 05-23
DelTA: 基于可验证奖励的强化学习中的判别性令牌信用分配研究 · HF Papers · 05-22
解读今日开放-封闭性能差距研究 · Interconnects · 05-12
我一直在做的事：ATOM报告、后训练课程、完成书籍与持续研究研究 · Interconnects · 05-12
克服奖励信号挑战：在 SageMaker AI 上使用 GRPO 进行基于可验证奖励的强化学习工程 · AWS ML · 05-08
综述梳理 MOPD 在近期 LLM 后训练中的应用研究 · X · 05-07
超越 SFT-to-RL：通过 Black-Box On-Policy Distillation 进行多模态 RL 的预对齐 HF Papers · 05-06
协同演化的策略蒸馏 HF Papers · 05-01

更新于五月二十五日 09:40