X · 研究者一手

@drjimfan 半个 GPT-1 能做什么？我们训练了一个名为 SONIC 的 42M transformer …

@drjimfan What can half of GPT-1 do? We trained a 42M transformer called SONIC …

二〇二六年五月八日 · 英文原文

摘要

SONIC 是用于人形机器人全身控制的 42M Transformer，以 human mocap data 进行 motion tracking 监督训练，使用 100M+ 帧、128 GPUs 和 500,000+ 并行 robots。经 NVIDIA Isaac Lab 仿真训练 3 天后，zero-shot 迁移到真实 G1，在 50 个 motion sequences 上成功率 100%，并开源代码与 checkpoints。

半个 GPT-1 能做什么？我们训练了一个名为 SONIC 的 42M Transformer，用来控制人形机器人的身体。对人类来说，下蹲、转身、爬行、冲刺都需要相当多的潜意识处理。SONIC 捕捉了这种“System 1”——快速、反应式的全身智能——并将其放进一个单一模型中，把任意运动指令转换为稳定、自然的 motor signals。而且它完全开源！！

关键 insight：motion tracking 是全身控制中唯一真正可扩展的任务。我们不再为每个新技能手工设计 rewards，而是使用来自 human mocap data 的密集逐帧监督。数据本身编码了 reward function：“在保持平衡的同时，把四肢配置到任意类人的姿态”。

我们把人形机器人 motion RL 扩展到了前所未有的规模：100M+ mocap frames，以及 128 GPUs 上的 500,000+ 并行 robots。NVIDIA Isaac Lab 让我们能够以快 10,000 倍的 tick 加速 physics，使机器人在现实时间仅数小时内获得多年的虚拟经验。训练 3 天后，neural net 无需 finetuning 即可 zero-shot transfer 到真实 G1 机器人。在 50 个多样化真实世界 motion sequences 上达到 100% success rate。

一个 SONIC policy 支持以下所有能力：

VR 全身 teleoperation
Human video。只需把 webcam 对准真人，即可 live stream motions。
Text prompts。“Walk sideways”、“dance like a monkey”、“kick your left foot”等。
Music audio。机器人会跟着节拍跳舞，并适应 tempo 和 rhythm。
VLA foundation models。我们接入了 GR00T N1.5，并在 mobile tasks 上达到 95% success。

我们开源了代码和 model checkpoints！！thread 中有深入介绍：

Website: https://t.co/xTaDXBu9cD Codebase and weights: https://t.co/QCQkqPIsHI Whitepaper: https://t.co/K2QCFjboDR

看看 @zhengyiluo 的帖子： https://t.co/hIHtvKkDQf

译自 X · 研究者一手 · 录于二〇二六年五月八日