Qwen-VLA：统一跨任务、环境与机器人本体的视觉-语言-动作建模

Qwen-VLA: Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments

Qiuyue Wang, Mingsheng Li, Jian Guan, Jinhui Ye, Sicheng Xie, Yitao Liu, Junhao Chen, Zhixuan Liang 等 40 位

来自 Qwen

二〇二六年五月二十九日 · arXiv:2605.30280 · PDF

摘要

具身智能通常通过为操作、导航等单一任务训练专用模型来研究，这导致能力碎片化，且难以跨任务、环境和机器人本体进行泛化。在本工作中，我们研究是否可以将异构的具身决策问题统一到一个视觉-语言-动作模型中。我们提出Qwen-VLA，一个统一的具身基础模型，它将Qwen的视觉-语言建模栈从感知、理解和推理扩展到连续动作与轨迹生成，通过一个基于DiT的动作解码器实现。Qwen-VLA采用大规模联合预训练方案，在多种数据源上训练，包括机器人操作轨迹、人类第一人称演示、合成仿真数据、视觉-语言导航数据、轨迹中心监督数据以及辅助视觉-语言数据。为支持多种机器人平台，我们引入了具身感知提示条件化，其中机器人特定的文本描述指定当前本体和控制约定。我们进一步将操作、导航和轨迹预测统一到一个动作与轨迹预测框架中，从而在跨机器人形态、任务族和环境时实现可迁移的视觉定位、空间推理和连续动作生成。在操作、导航和轨迹中心基准上的实验表明，在场景布局、背景、光照、物体配置和机器人本体变化下，模型具有一致的多任务性能和分布外泛化能力。Qwen-VLA-Instruct在LIBERO上达到97.9%，在Simpler-WidowX上达到73.7%，在RoboTwin-Easy/Hard上达到86.1%/87.2%，在R2R上OSR为69.0%，在RxR上SR为59.6%，在真实世界ALOHA实验中平均OOD成功率为76.9%，在DOMINO动态操作任务上零样本成功率为26.6%。

译自 Hugging Face · Daily Papers · arXiv:2605.30280 · 录于二〇二六年五月二十九日