@drjimfan 我们训练了一个配备 22-DoF 灵巧手的人形机器人组装模型 c…
@drjimfan We trained a humanoid with 22-DoF dexterous hands to assemble model c…
NVIDIA Robotics 团队提出 EgoScale,用 20,000+ 小时第一视角人类视频 pre-train GR00T N1.5,无 robot in the loop,再以 4 小时 Sharpa hands robot play data mid-train。模型驱动 22-DoF 灵巧手 humanoid 完成模型车组装、注射器操作等任务;人类视频规模与 action prediction loss 呈 log-linear scaling law(R²=0.998),该 loss 可预测真实机器人成功率,并可 transfer 到 Unitree G1。
我们训练了一个配备 22-DoF 灵巧手的 humanoid(人形机器人),让它组装模型车、操作注射器、整理扑克牌、折叠/卷起衬衫;这些能力主要从 20,000+ 小时的第一视角人类视频中学习得到,过程中没有 robot in the loop。
人类是地球上最具可扩展性的 embodiment(具身)。我们发现,人类视频规模与 action prediction loss 之间存在近乎完美的 log-linear scaling law(R² = 0.998),而且这个 loss 可以直接预测真实机器人成功率。
Humanoid robots 会是最终形态,因为它们是与人类 embodiment gap 最小的实用 form factor。可以称之为机器人硬件的 Bitter Lesson:kinematic similarity 让我们可以直接把人类手指运动 retarget 到灵巧机器人手的关节上。不需要 learned embeddings,也不需要复杂的 transfer algorithms。相对 wrist motion + retargeted 22-DoF finger actions 构成了一个统一的 action space,可以从 pre-training 一直贯通到机器人执行。
我们的配方叫作 “EgoScale”:
- 在 20K 小时人类视频上 pre-train GR00T N1.5,再只用 4 小时(!)配备 Sharpa hands 的 robot play data 进行 mid-train。在 5 个高灵巧度任务上,相比从零开始训练提升 54%。
- 最意外的结果:单条 teleop demo 就足以学习一个此前从未见过的任务。我们的配方带来了极高的数据效率。
- 虽然我们在 22-DoF 手部关节空间中进行 pre-train,但 policy 可以 transfer 到配备 7-DoF 三指手的 Unitree G1。相比只用 G1 数据训练,提升超过 30%。
通往机器人灵巧操作可扩展路径的关键从来不是更多机器人,而一直是我们自己。
Thread 中有更深入的介绍:
这是 NVIDIA Robotics 一个大型团队合作项目。可以看 @ruijie_zheng12 的深入解读:
- Website: https://t.co/n3Zp8bh8Ht
- Paper: https://t.co/eXQqSl3GHg