实録译稿 社区 24h

术语频次

封存归档

RLVR

▂█▂▃ · 32 次 · 收录于 8 篇

使用可验证奖励的强化学习

  1. walkinglabs/learn-harness-engineering 工程 · GitHub · 05-23
  2. DelTA: 基于可验证奖励的强化学习中的判别性令牌信用分配 研究 · HF Papers · 05-22
  3. 解读今日开放-封闭性能差距 研究 · Interconnects · 05-12
  4. 我一直在做的事:ATOM报告、后训练课程、完成书籍与持续研究 研究 · Interconnects · 05-12
  5. 克服奖励信号挑战:在 SageMaker AI 上使用 GRPO 进行基于可验证奖励的强化学习 工程 · AWS ML · 05-08
  6. 综述梳理 MOPD 在近期 LLM 后训练中的应用 研究 · X · 05-07
  7. 超越 SFT-to-RL:通过 Black-Box On-Policy Distillation 进行多模态 RL 的预对齐 HF Papers · 05-06
  8. 协同演化的策略蒸馏 HF Papers · 05-01