X · 研究者一手

@drjimfan 第二种预训练范式

@drjimfan The Second Pre-training Paradigm

二〇二六年五月九日 · 英文原文

摘要

作者将 next word prediction 与 world modeling 对比，定义后者为基于 action 预测未来 world state。文章认为 video generative models 可作为物理模拟器，2026 年 Large World Models 将用于 robotics 和 multimodal AI，并讨论 VLM、VLA、视觉主导、YouTube 与 smart glasses 数据、3D motion、proprioception、tactile sensing 等方向。

next word prediction（下一个词预测）是第一个 pre-training paradigm（预训练范式）。现在我们正经历第二次范式转移：world modeling，或者说“next physical state prediction（下一个物理状态预测）”。很少有人理解这次转变会有多深远，因为遗憾的是，目前 world models 最受炒作的用例是 AI video slop（接下来还会有 game slop）。我非常确信，2026 年会成为 Large World Models 真正为 robotics，以及更广义的 multimodal AI 奠定基础的第一年。

在这个语境下，我把 world modeling 定义为：在给定一个 action 的条件下，预测下一个可能的 world state（或更长时间段的一系列 states）。Video generative models 是其中一种实现方式，其中“next states”是一串 RGB frames（大多为 8-10 秒，最长到几分钟），“action”是对要做什么的文本描述。训练过程是在数十亿小时的视频像素中建模未来变化。从核心上说，video WMs 是可学习的物理模拟器和渲染引擎。它们捕捉 counterfactuals，也就是一个更正式的说法：推理如果采取另一个 action，未来会如何以不同方式展开。WMs 从根本上把 vision 放在第一位。

相比之下，VLMs 从根本上是 language-first。从最早的原型（例如 LLaVA，Liu et al. 2023）开始，故事大多没有变：vision 在 encoder 处进入，然后被路由到一个 language backbone。随着时间推移，encoders 变得更好，architectures 更简洁，vision 试图变得更“native”（比如 omni models）。但它仍然是二等公民，被这个领域多年为 LLMs 打造的能力所压倒。这条路很方便。我们知道 LLMs 可以 scale。我们的架构直觉、数据配方设计和 benchmark 指引（VQAs）都高度为 language 优化。

对 physical AI 而言，2025 年由 VLAs 主导：在一个 pre-trained VLM checkpoint 上嫁接一个 robot motor action decoder。它其实是“LVAs”：language > vision > action，按公民等级递减。同样，这条路很方便，因为我们熟悉 VLM recipes。但 VLMs 中的大多数参数被分配给 knowledge（例如“这团像素是 Coca Cola 品牌”），而不是 physics（“如果你把可乐瓶弄倒，它会摊成一滩棕色液体，弄脏白色桌布，并毁掉电机”）。VLAs 按设计很擅长 knowledge retrieval，但头重脚轻的地方错了。多阶段嫁接式设计也不符合我对简单性和优雅性的偏好。

从生物学上看，vision 主导了我们的皮层计算。我们大约三分之一的大脑皮层用于在枕叶、颞叶和顶叶区域处理像素。相比之下，language 依赖的区域相对紧凑。vision 是连接我们的大脑、motor 系统和物理世界的最高带宽通道。它闭合了“sensorimotor loop”——这是 robotics 最重要的待解循环，而中间不需要任何 language。

自然给了我们一个存在性证明：一种高度灵巧的 physical intelligence，具备极少的 language 能力。猿。

我见过猿驾驶高尔夫球车，也见过它们像人类技工一样用螺丝刀更换刹车片。它们的 language understanding 不超过 BERT 或 GPT-1，但它们的 physical skills 远超我们任何 SOTA robots。猿也许没有好的 LMs，但它们显然有稳健的“what if”心理图景：物理世界如何运作，以及会如何对它们的干预作出反应。

world modeling 的时代已经到来。它符合 bitter lesson。正如 Jitendra 喜欢提醒我们这些 scaling addicts 的那样，“Supervision is the opium of the AI researcher.” 整个 YouTube，以及 smart glasses 的兴起，将以前所未有的规模捕捉我们世界的原始视觉流，远远超过我们训练过的所有文本。

我们将看到一种新的 pretraining：next world states 可以不止包含 RGBs——3D spatial motions、proprioception 和 tactile sensing 才刚刚开始。

我们将看到一种新的 reasoning：在 visual space 而不是 language space 中进行 chain of thought。你可以通过模拟几何和接触来解一道物理谜题，想象零件如何移动和碰撞，而完全不必翻译成字符串。Language 是瓶颈，是脚手架，不是地基。

我们将面对一个新的潘多拉魔盒，里面装着许多开放问题：即便有了完美的未来模拟，motor actions 应该如何 decoded？pixel reconstruction 真的是最佳 objective 吗，还是我们应该进入 alternative latent spaces？我们需要多少 robot data，scale teleoperation 仍然是答案吗？在完成所有这些练习之后，我们终于是在接近 robotics 的 GPT-3 moment 吗？

Ilya 终究是对的。AGI 并没有收敛。我们回到了研究的时代，而没有什么比挑战 first principles 更让人兴奋。

译自 X · 研究者一手 · 录于二〇二六年五月九日