@drjimfan 半个 GPT-1 能做什么?我们训练了一个名为 SONIC 的 42M transformer …
@drjimfan What can half of GPT-1 do? We trained a 42M transformer called SONIC …
SONIC 是用于人形机器人全身控制的 42M Transformer,以 human mocap data 进行 motion tracking 监督训练,使用 100M+ 帧、128 GPUs 和 500,000+ 并行 robots。经 NVIDIA Isaac Lab 仿真训练 3 天后,zero-shot 迁移到真实 G1,在 50 个 motion sequences 上成功率 100%,并开源代码与 checkpoints。
半个 GPT-1 能做什么?我们训练了一个名为 SONIC 的 42M Transformer,用来控制人形机器人的身体。对人类来说,下蹲、转身、爬行、冲刺都需要相当多的潜意识处理。SONIC 捕捉了这种“System 1”——快速、反应式的全身智能——并将其放进一个单一模型中,把任意运动指令转换为稳定、自然的 motor signals。而且它完全开源!!
关键 insight:motion tracking 是全身控制中唯一真正可扩展的任务。我们不再为每个新技能手工设计 rewards,而是使用来自 human mocap data 的密集逐帧监督。数据本身编码了 reward function:“在保持平衡的同时,把四肢配置到任意类人的姿态”。
我们把人形机器人 motion RL 扩展到了前所未有的规模:100M+ mocap frames,以及 128 GPUs 上的 500,000+ 并行 robots。NVIDIA Isaac Lab 让我们能够以快 10,000 倍的 tick 加速 physics,使机器人在现实时间仅数小时内获得多年的虚拟经验。训练 3 天后,neural net 无需 finetuning 即可 zero-shot transfer 到真实 G1 机器人。在 50 个多样化真实世界 motion sequences 上达到 100% success rate。
一个 SONIC policy 支持以下所有能力:
- VR 全身 teleoperation
- Human video。只需把 webcam 对准真人,即可 live stream motions。
- Text prompts。“Walk sideways”、“dance like a monkey”、“kick your left foot”等。
- Music audio。机器人会跟着节拍跳舞,并适应 tempo 和 rhythm。
- VLA foundation models。我们接入了 GR00T N1.5,并在 mobile tasks 上达到 95% success。
我们开源了代码和 model checkpoints!!thread 中有深入介绍:
Website: https://t.co/xTaDXBu9cD Codebase and weights: https://t.co/QCQkqPIsHI Whitepaper: https://t.co/K2QCFjboDR
看看 @zhengyiluo 的帖子: https://t.co/hIHtvKkDQf