Hugging Face · Daily Papers

RLDX-1 技术报告

RLDX-1 Technical Report

Dongyoung Kim, Huiwon Jang, Myungkyu Koo, Suhyeok Jang, Taeyoung Kim, Beomjun Kim, Byungjun Yoon, Changsung Jang 等 68 位

来自 RLWRLD

二〇二六年五月七日 · arXiv:2605.03269 · PDF · Code

摘要

Vision-Language-Action models（VLA）通过继承预训练 Vision-Language Models 所具备的通用智能（即广泛的场景理解与 language-conditioned 泛化能力），在人类式通用机器人 policy 方面取得了显著进展，但在需要更广泛功能能力的复杂真实世界任务中仍然表现不足，例如运动感知、memory-aware 决策和物理感知。

为此，我们提出 RLDX-1：一种面向灵巧操作的通用机器人 policy，构建于 Multi-Stream Action Transformer（MSAT）之上。MSAT 是一种通过 modality-specific stream 与 cross-modal joint self-attention 融合异构模态的架构，用于统一这些能力。RLDX-1 进一步将该架构与系统级设计相结合，包括为罕见操作场景合成训练数据、面向人类式操作的专门学习流程，以及用于实时部署的 inference 优化。

通过实证评估，我们表明 RLDX-1 在 simulation benchmark 和真实世界任务中都稳定优于近期前沿 VLA（例如 π_{0.5} 和 GR00T N1.6），这些任务要求超越一般通用性的广泛功能能力。具体而言，RLDX-1 在 ALLEX 人形机器人任务中表现更优，成功率达到 86.8%，而 π_{0.5} 和 GR00T N1.6 约为 40%，这表明 RLDX-1 能够在多样化功能需求下控制高 DoF 人形机器人。总体来看，这些结果使 RLDX-1 成为迈向可靠 VLA 的一个有前景步骤，适用于复杂、接触丰富且动态的真实世界灵巧操作。