一声棒喝,本不立文字
偏要著録,已是二义

Hugging Face · Daily Papers

边部署边学习:面向通用机器人策略的机群规模强化学习

Learning while Deploying: Fleet-Scale Reinforcement Learning for Generalist Robot Policies

Yi Wang, Xinchen Li, Pengwei Xie, Pu Yang, Buqing Nie, Yunuo Cai, Qinglin Zhang, Chendi Qu 等 16 位
二〇二六年五月四日 · arXiv:2605.00416 · PDF

通用机器人 policy 越来越受益于大规模预训练,但仅依靠离线数据不足以支持稳健的真实世界部署。已部署的机器人会遇到分布偏移、长尾失败、任务变化,以及人类纠正的机会,而固定的 demonstration 数据集无法完全覆盖这些情况。

我们提出 Learning While Deploying (LWD),这是一种面向 fleet-scale 的 offline-to-online reinforcement learning 框架,用于对通用 Vision-Language-Action (VLA) policy 进行持续 post-training。LWD 从一个预训练 VLA policy 出发,利用在机器人 fleet 中收集的自主 rollout 和人类 intervention,将部署、共享物理经验、policy 改进和重新部署连接成闭环。

为稳定地从异构、稀疏奖励的 fleet 数据中学习,LWD 结合了 Distributional Implicit Value Learning (DIVL),用于稳健的 value estimation,并结合 Q-learning via Adjoint Matching (QAM),用于在基于 flow 的 VLA action generator 中进行 policy extraction。我们在由 16 台双臂机器人组成的 fleet 上验证了 LWD,覆盖八项真实世界 manipulation 任务,包括语义化 grocery restocking,以及持续 3--5 分钟的 long-horizon 任务。随着 fleet experience 的累积,单一通用 policy 持续改进,平均成功率达到 95%,其中 long-horizon 任务的提升最大。

译自 Hugging Face · Daily Papers · arXiv:2605.00416 · 录于 二〇二六年五月四日