Hugging Face · Daily Papers

生成、过滤、控制、回放：LLM 强化学习 rollout 策略全面综述

Generate, Filter, Control, Replay: A Comprehensive Survey of Rollout Strategies for LLM Reinforcement Learning

Rohan Surana, Gagan Mundada, Xunyi Jiang, Chuhan Wang, Zhenwei Tang, Difan Jiao, Zihan Huang, Yuxin Xiong 等 22 位

来自 McAuley-Lab

二〇二六年五月六日 · arXiv:2605.02913 · PDF

摘要

强化学习（RL）已成为提升大型语言模型（LLMs）推理能力的核心后训练工具。在这些系统中，rollout，即从 prompt 到终止所采样出的轨迹，包括中间推理步骤以及可选的 tool 或 environment 交互，决定了优化器所学习的数据；然而，rollout 设计往往缺乏充分报告。

本综述提供了一种与优化器无关的视角，用于考察基于 RL 的推理型 LLM 后训练中的 rollout 策略。我们用统一符号形式化 rollout pipeline，并提出 Generate-Filter-Control-Replay（GFCR），这是一种生命周期分类法，将 rollout pipeline 分解为四个模块化阶段：Generate 提出候选轨迹和拓扑；Filter 通过 verifier、judge、critic 构造中间信号；Control 在预算约束下分配计算资源，并做出继续、分支和停止决策；Replay 在不更新权重的情况下跨 rollout 保留并复用产物，包括能够自主生成新训练任务的自演化 curriculum。我们还以可靠性、覆盖率和成本敏感性为标准，补充提出一种刻画 rollout 权衡关系的分类法。

基于这一框架，我们综合梳理了多类方法，包括带有可验证 reward 的 RL、过程监督、基于 judge 的 gating、guided rollout 与 tree/segment rollout、自适应计算分配、early-exit 与 partial rollout、吞吐量优化，以及用于自我改进的 replay/recomposition。我们通过数学、代码/SQL、多模态推理、使用 tool 的 agent，以及评估技能归纳、复用和跨任务迁移的 agentic skill benchmark 等案例来具体说明该框架。最后，我们提供了一个诊断索引，将常见 rollout 病症映射到 GFCR 模块和缓解手段，并指出构建可复现、计算高效且可信的 rollout pipeline 所面临的开放挑战。