一声棒喝,本不立文字
偏要著録,已是二义

Hugging Face · Daily Papers

生成、过滤、控制、回放:LLM 强化学习 rollout 策略全面综述

Generate, Filter, Control, Replay: A Comprehensive Survey of Rollout Strategies for LLM Reinforcement Learning

Rohan Surana, Gagan Mundada, Xunyi Jiang, Chuhan Wang, Zhenwei Tang, Difan Jiao, Zihan Huang, Yuxin Xiong 等 22 位
来自 McAuley-Lab
二〇二六年五月六日 · arXiv:2605.02913 · PDF

强化学习(RL)已成为提升大型语言模型(LLMs)推理能力的核心后训练工具。在这些系统中,rollout,即从 prompt 到终止所采样出的轨迹,包括中间推理步骤以及可选的 tool 或 environment 交互,决定了优化器所学习的数据;然而,rollout 设计往往缺乏充分报告。

本综述提供了一种与优化器无关的视角,用于考察基于 RL 的推理型 LLM 后训练中的 rollout 策略。我们用统一符号形式化 rollout pipeline,并提出 Generate-Filter-Control-Replay(GFCR),这是一种生命周期分类法,将 rollout pipeline 分解为四个模块化阶段:Generate 提出候选轨迹和拓扑;Filter 通过 verifier、judge、critic 构造中间信号;Control 在预算约束下分配计算资源,并做出继续、分支和停止决策;Replay 在不更新权重的情况下跨 rollout 保留并复用产物,包括能够自主生成新训练任务的自演化 curriculum。我们还以可靠性、覆盖率和成本敏感性为标准,补充提出一种刻画 rollout 权衡关系的分类法。

基于这一框架,我们综合梳理了多类方法,包括带有可验证 reward 的 RL、过程监督、基于 judge 的 gating、guided rollout 与 tree/segment rollout、自适应计算分配、early-exit 与 partial rollout、吞吐量优化,以及用于自我改进的 replay/recomposition。我们通过数学、代码/SQL、多模态推理、使用 tool 的 agent,以及评估技能归纳、复用和跨任务迁移的 agentic skill benchmark 等案例来具体说明该框架。最后,我们提供了一个诊断索引,将常见 rollout 病症映射到 GFCR 模块和缓解手段,并指出构建可复现、计算高效且可信的 rollout pipeline 所面临的开放挑战。

译自 Hugging Face · Daily Papers · arXiv:2605.02913 · 录于 二〇二六年五月六日