X · 研究者一手

@drjimfan 我们训练了一个配备 22-DoF 灵巧手的人形机器人组装模型 c…

@drjimfan We trained a humanoid with 22-DoF dexterous hands to assemble model c…

二〇二六年五月八日 · 英文原文

摘要

NVIDIA Robotics 团队提出 EgoScale，用 20,000+ 小时第一视角人类视频 pre-train GR00T N1.5，无 robot in the loop，再以 4 小时 Sharpa hands robot play data mid-train。模型驱动 22-DoF 灵巧手 humanoid 完成模型车组装、注射器操作等任务；人类视频规模与 action prediction loss 呈 log-linear scaling law（R²=0.998），该 loss 可预测真实机器人成功率，并可 transfer 到 Unitree G1。

我们训练了一个配备 22-DoF 灵巧手的 humanoid（人形机器人），让它组装模型车、操作注射器、整理扑克牌、折叠/卷起衬衫；这些能力主要从 20,000+ 小时的第一视角人类视频中学习得到，过程中没有 robot in the loop。

人类是地球上最具可扩展性的 embodiment（具身）。我们发现，人类视频规模与 action prediction loss 之间存在近乎完美的 log-linear scaling law（R² = 0.998），而且这个 loss 可以直接预测真实机器人成功率。

Humanoid robots 会是最终形态，因为它们是与人类 embodiment gap 最小的实用 form factor。可以称之为机器人硬件的 Bitter Lesson：kinematic similarity 让我们可以直接把人类手指运动 retarget 到灵巧机器人手的关节上。不需要 learned embeddings，也不需要复杂的 transfer algorithms。相对 wrist motion + retargeted 22-DoF finger actions 构成了一个统一的 action space，可以从 pre-training 一直贯通到机器人执行。

我们的配方叫作 “EgoScale”：

在 20K 小时人类视频上 pre-train GR00T N1.5，再只用 4 小时（！）配备 Sharpa hands 的 robot play data 进行 mid-train。在 5 个高灵巧度任务上，相比从零开始训练提升 54%。
最意外的结果：单条 teleop demo 就足以学习一个此前从未见过的任务。我们的配方带来了极高的数据效率。
虽然我们在 22-DoF 手部关节空间中进行 pre-train，但 policy 可以 transfer 到配备 7-DoF 三指手的 Unitree G1。相比只用 G1 数据训练，提升超过 30%。

通往机器人灵巧操作可扩展路径的关键从来不是更多机器人，而一直是我们自己。

Thread 中有更深入的介绍：

这是 NVIDIA Robotics 一个大型团队合作项目。可以看 @ruijie_zheng12 的深入解读：

Website: https://t.co/n3Zp8bh8Ht
Paper: https://t.co/eXQqSl3GHg

https://t.co/ybup5DhSCM

译自 X · 研究者一手 · 录于二〇二六年五月八日