RLDX-1 技术报告
RLDX-1 Technical Report
Vision-Language-Action models(VLA)通过继承预训练 Vision-Language Models 所具备的通用智能(即广泛的场景理解与 language-conditioned 泛化能力),在人类式通用机器人 policy 方面取得了显著进展,但在需要更广泛功能能力的复杂真实世界任务中仍然表现不足,例如运动感知、memory-aware 决策和物理感知。
为此,我们提出 RLDX-1:一种面向灵巧操作的通用机器人 policy,构建于 Multi-Stream Action Transformer(MSAT)之上。MSAT 是一种通过 modality-specific stream 与 cross-modal joint self-attention 融合异构模态的架构,用于统一这些能力。RLDX-1 进一步将该架构与系统级设计相结合,包括为罕见操作场景合成训练数据、面向人类式操作的专门学习流程,以及用于实时部署的 inference 优化。
通过实证评估,我们表明 RLDX-1 在 simulation benchmark 和真实世界任务中都稳定优于近期前沿 VLA(例如 π_{0.5} 和 GR00T N1.6),这些任务要求超越一般通用性的广泛功能能力。具体而言,RLDX-1 在 ALLEX 人形机器人任务中表现更优,成功率达到 86.8%,而 π_{0.5} 和 GR00T N1.6 约为 40%,这表明 RLDX-1 能够在多样化功能需求下控制高 DoF 人形机器人。总体来看,这些结果使 RLDX-1 成为迈向可靠 VLA 的一个有前景步骤,适用于复杂、接触丰富且动态的真实世界灵巧操作。