X · 研究者一手

@drjimfan 大家都在为 vibe coding 抓狂。本着节日精神，所有…

@drjimfan Everyone's freaking out about vibe coding. In the holiday spirit, all…

二〇二六年五月八日 · 英文原文

摘要

作者总结2025年对robotics的3点观察：Optimus、e-Atlas、Figure等hardware能力已较强，但过热、电机和firmware问题限制software iteration；robotics缺乏统一benchmark与reproducibility；基于VLM的VLA因pretraining偏向language、knowledge和高层视觉，可能不适合dexterity，video world model被视为替代方向。

大家都在为 vibe coding 焦虑。趁着假期气氛，也允许我分享一下我对 robotics 这片 wild west 的焦虑。2025 年我学到的 3 个教训。

Hardware 领先于 software，但 hardware reliability 严重限制了 software iteration 的速度。

我们已经见过 Optimus、e-Atlas、Figure、Neo、G1 等精致的工程作品。我们最好的 AI 还没有把这些前沿 hardware 的潜力全部榨出来。身体的能力超过了大脑能够指挥的范围。然而，看护这些 robots 需要一整支 operation team。和人类不同，robots 不会从擦伤中自愈。过热、损坏的电机、怪异的 firmware 问题每天都在困扰我们。错误不可逆，也不留情面。

唯一实现 scale 的，是我的耐心。

Benchmarking 在 robotics 里仍然是一场大灾难。

LLM 圈外人以为 MMLU 和 SWE-Bench 是常识。到了 robotics 这里，先把你的 🍺 拿稳。没人对任何事情达成一致：hardware platform、task definition、scoring rubrics、simulator，或 real world setups。按定义，每个人都是 SOTA，因为每次新闻发布时，他们都会临时定义一个自己的 benchmark。每个人都会从 100 次重试里挑出最好看的 demo。

作为一个领域，我们在 2026 年必须做得更好，停止把 reproducibility 和 scientific discipline 当作二等公民。

基于 VLM 的 VLA 感觉不对。

VLA 代表“vision-language-action” model，一直是 robot brains 的主流方法。配方很简单：拿一个 pretrained VLM checkpoint，在上面嫁接一个 action module。但如果你仔细想，VLMs 被高度优化来爬升 visual question answering 之类的 benchmark。这意味着两个问题：（1）VLMs 里的大多数参数用于 language 和 knowledge，而不是 physics；（2）visual encoders 被主动调优为丢弃低层细节，因为 Q&A 只需要高层理解。但细微细节对 dexterity 非常重要。

没有理由认为 VLA 的性能会随着 VLM 参数规模扩大而 scale。Pretraining 是错位的。Video world model 看起来是更适合作为 robot policy 的 pretraining objective。我会在这上面下重注。

译自 X · 研究者一手 · 录于二〇二六年五月八日