边部署边学习:面向通用机器人策略的机群规模强化学习
Learning while Deploying: Fleet-Scale Reinforcement Learning for Generalist Robot Policies
通用机器人 policy 越来越受益于大规模预训练,但仅依靠离线数据不足以支持稳健的真实世界部署。已部署的机器人会遇到分布偏移、长尾失败、任务变化,以及人类纠正的机会,而固定的 demonstration 数据集无法完全覆盖这些情况。
我们提出 Learning While Deploying (LWD),这是一种面向 fleet-scale 的 offline-to-online reinforcement learning 框架,用于对通用 Vision-Language-Action (VLA) policy 进行持续 post-training。LWD 从一个预训练 VLA policy 出发,利用在机器人 fleet 中收集的自主 rollout 和人类 intervention,将部署、共享物理经验、policy 改进和重新部署连接成闭环。
为稳定地从异构、稀疏奖励的 fleet 数据中学习,LWD 结合了 Distributional Implicit Value Learning (DIVL),用于稳健的 value estimation,并结合 Q-learning via Adjoint Matching (QAM),用于在基于 flow 的 VLA action generator 中进行 policy extraction。我们在由 16 台双臂机器人组成的 fleet 上验证了 LWD,覆盖八项真实世界 manipulation 任务,包括语义化 grocery restocking,以及持续 3--5 分钟的 long-horizon 任务。随着 fleet experience 的累积,单一通用 policy 持续改进,平均成功率达到 95%,其中 long-horizon 任务的提升最大。