Hugging Face · Daily Papers

边部署边学习：面向通用机器人策略的机群规模强化学习

Learning while Deploying: Fleet-Scale Reinforcement Learning for Generalist Robot Policies

Yi Wang, Xinchen Li, Pengwei Xie, Pu Yang, Buqing Nie, Yunuo Cai, Qinglin Zhang, Chendi Qu 等 16 位

二〇二六年五月四日 · arXiv:2605.00416 · PDF

摘要

通用机器人 policy 越来越受益于大规模预训练，但仅依靠离线数据不足以支持稳健的真实世界部署。已部署的机器人会遇到分布偏移、长尾失败、任务变化，以及人类纠正的机会，而固定的 demonstration 数据集无法完全覆盖这些情况。

我们提出 Learning While Deploying (LWD)，这是一种面向 fleet-scale 的 offline-to-online reinforcement learning 框架，用于对通用 Vision-Language-Action (VLA) policy 进行持续 post-training。LWD 从一个预训练 VLA policy 出发，利用在机器人 fleet 中收集的自主 rollout 和人类 intervention，将部署、共享物理经验、policy 改进和重新部署连接成闭环。

为稳定地从异构、稀疏奖励的 fleet 数据中学习，LWD 结合了 Distributional Implicit Value Learning (DIVL)，用于稳健的 value estimation，并结合 Q-learning via Adjoint Matching (QAM)，用于在基于 flow 的 VLA action generator 中进行 policy extraction。我们在由 16 台双臂机器人组成的 fleet 上验证了 LWD，覆盖八项真实世界 manipulation 任务，包括语义化 grocery restocking，以及持续 3--5 分钟的 long-horizon 任务。随着 fleet experience 的累积，单一通用 policy 持续改进，平均成功率达到 95%，其中 long-horizon 任务的提升最大。