@drjimfan 大家都在为 vibe coding 抓狂。本着节日精神,所有…
@drjimfan Everyone's freaking out about vibe coding. In the holiday spirit, all…
作者总结2025年对robotics的3点观察:Optimus、e-Atlas、Figure等hardware能力已较强,但过热、电机和firmware问题限制software iteration;robotics缺乏统一benchmark与reproducibility;基于VLM的VLA因pretraining偏向language、knowledge和高层视觉,可能不适合dexterity,video world model被视为替代方向。
大家都在为 vibe coding 焦虑。趁着假期气氛,也允许我分享一下我对 robotics 这片 wild west 的焦虑。2025 年我学到的 3 个教训。
- Hardware 领先于 software,但 hardware reliability 严重限制了 software iteration 的速度。
我们已经见过 Optimus、e-Atlas、Figure、Neo、G1 等精致的工程作品。我们最好的 AI 还没有把这些前沿 hardware 的潜力全部榨出来。身体的能力超过了大脑能够指挥的范围。然而,看护这些 robots 需要一整支 operation team。和人类不同,robots 不会从擦伤中自愈。过热、损坏的电机、怪异的 firmware 问题每天都在困扰我们。错误不可逆,也不留情面。
唯一实现 scale 的,是我的耐心。
- Benchmarking 在 robotics 里仍然是一场大灾难。
LLM 圈外人以为 MMLU 和 SWE-Bench 是常识。到了 robotics 这里,先把你的 🍺 拿稳。没人对任何事情达成一致:hardware platform、task definition、scoring rubrics、simulator,或 real world setups。按定义,每个人都是 SOTA,因为每次新闻发布时,他们都会临时定义一个自己的 benchmark。每个人都会从 100 次重试里挑出最好看的 demo。
作为一个领域,我们在 2026 年必须做得更好,停止把 reproducibility 和 scientific discipline 当作二等公民。
- 基于 VLM 的 VLA 感觉不对。
VLA 代表“vision-language-action” model,一直是 robot brains 的主流方法。配方很简单:拿一个 pretrained VLM checkpoint,在上面嫁接一个 action module。但如果你仔细想,VLMs 被高度优化来爬升 visual question answering 之类的 benchmark。这意味着两个问题:(1)VLMs 里的大多数参数用于 language 和 knowledge,而不是 physics;(2)visual encoders 被主动调优为丢弃低层细节,因为 Q&A 只需要高层理解。但细微细节对 dexterity 非常重要。
没有理由认为 VLA 的性能会随着 VLM 参数规模扩大而 scale。Pretraining 是错位的。Video world model 看起来是更适合作为 robot policy 的 pretraining objective。我会在这上面下重注。