一声棒喝,本不立文字
偏要著録,已是二义

X · 研究者一手

@drjimfan 我们训练了一个配备 22-DoF 灵巧手的人形机器人组装模型 c…

@drjimfan We trained a humanoid with 22-DoF dexterous hands to assemble model c…

二〇二六年五月八日 · 英文原文

NVIDIA Robotics 团队提出 EgoScale,用 20,000+ 小时第一视角人类视频 pre-train GR00T N1.5,无 robot in the loop,再以 4 小时 Sharpa hands robot play data mid-train。模型驱动 22-DoF 灵巧手 humanoid 完成模型车组装、注射器操作等任务;人类视频规模与 action prediction loss 呈 log-linear scaling law(R²=0.998),该 loss 可预测真实机器人成功率,并可 transfer 到 Unitree G1。

我们训练了一个配备 22-DoF 灵巧手的 humanoid(人形机器人),让它组装模型车、操作注射器、整理扑克牌、折叠/卷起衬衫;这些能力主要从 20,000+ 小时的第一视角人类视频中学习得到,过程中没有 robot in the loop。

人类是地球上最具可扩展性的 embodiment(具身)。我们发现,人类视频规模与 action prediction loss 之间存在近乎完美的 log-linear scaling law(R² = 0.998),而且这个 loss 可以直接预测真实机器人成功率。

Humanoid robots 会是最终形态,因为它们是与人类 embodiment gap 最小的实用 form factor。可以称之为机器人硬件的 Bitter Lesson:kinematic similarity 让我们可以直接把人类手指运动 retarget 到灵巧机器人手的关节上。不需要 learned embeddings,也不需要复杂的 transfer algorithms。相对 wrist motion + retargeted 22-DoF finger actions 构成了一个统一的 action space,可以从 pre-training 一直贯通到机器人执行。

我们的配方叫作 “EgoScale”:

通往机器人灵巧操作可扩展路径的关键从来不是更多机器人,而一直是我们自己。

Thread 中有更深入的介绍:

这是 NVIDIA Robotics 一个大型团队合作项目。可以看 @ruijie_zheng12 的深入解读:

https://t.co/ybup5DhSCM

译自 X · 研究者一手 · 录于 二〇二六年五月八日