Qwen-VLA:统一跨任务、环境与机器人本体的视觉-语言-动作建模
Qwen-VLA: Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments
具身智能通常通过为操作、导航等单一任务训练专用模型来研究,这导致能力碎片化,且难以跨任务、环境和机器人本体进行泛化。在本工作中,我们研究是否可以将异构的具身决策问题统一到一个视觉-语言-动作模型中。我们提出Qwen-VLA,一个统一的具身基础模型,它将Qwen的视觉-语言建模栈从感知、理解和推理扩展到连续动作与轨迹生成,通过一个基于DiT的动作解码器实现。Qwen-VLA采用大规模联合预训练方案,在多种数据源上训练,包括机器人操作轨迹、人类第一人称演示、合成仿真数据、视觉-语言导航数据、轨迹中心监督数据以及辅助视觉-语言数据。为支持多种机器人平台,我们引入了具身感知提示条件化,其中机器人特定的文本描述指定当前本体和控制约定。我们进一步将操作、导航和轨迹预测统一到一个动作与轨迹预测框架中,从而在跨机器人形态、任务族和环境时实现可迁移的视觉定位、空间推理和连续动作生成。在操作、导航和轨迹中心基准上的实验表明,在场景布局、背景、光照、物体配置和机器人本体变化下,模型具有一致的多任务性能和分布外泛化能力。Qwen-VLA-Instruct在LIBERO上达到97.9%,在Simpler-WidowX上达到73.7%,在RoboTwin-Easy/Hard上达到86.1%/87.2%,在R2R上OSR为69.0%,在RxR上SR为59.6%,在真实世界ALOHA实验中平均OOD成功率为76.9%,在DOMINO动态操作任务上零样本成功率为26.6%。