一声棒喝,本不立文字
偏要著録,已是二义

X · 研究者一手

@drjimfan 第二种预训练范式

@drjimfan The Second Pre-training Paradigm

二〇二六年五月九日 · 英文原文

作者将 next word prediction 与 world modeling 对比,定义后者为基于 action 预测未来 world state。文章认为 video generative models 可作为物理模拟器,2026 年 Large World Models 将用于 robotics 和 multimodal AI,并讨论 VLM、VLA、视觉主导、YouTube 与 smart glasses 数据、3D motion、proprioception、tactile sensing 等方向。

next word prediction(下一个词预测)是第一个 pre-training paradigm(预训练范式)。现在我们正经历第二次范式转移:world modeling,或者说“next physical state prediction(下一个物理状态预测)”。很少有人理解这次转变会有多深远,因为遗憾的是,目前 world models 最受炒作的用例是 AI video slop(接下来还会有 game slop)。我非常确信,2026 年会成为 Large World Models 真正为 robotics,以及更广义的 multimodal AI 奠定基础的第一年。

在这个语境下,我把 world modeling 定义为:在给定一个 action 的条件下,预测下一个可能的 world state(或更长时间段的一系列 states)。Video generative models 是其中一种实现方式,其中“next states”是一串 RGB frames(大多为 8-10 秒,最长到几分钟),“action”是对要做什么的文本描述。训练过程是在数十亿小时的视频像素中建模未来变化。从核心上说,video WMs 是可学习的物理模拟器和渲染引擎。它们捕捉 counterfactuals,也就是一个更正式的说法:推理如果采取另一个 action,未来会如何以不同方式展开。WMs 从根本上把 vision 放在第一位。

相比之下,VLMs 从根本上是 language-first。从最早的原型(例如 LLaVA,Liu et al. 2023)开始,故事大多没有变:vision 在 encoder 处进入,然后被路由到一个 language backbone。随着时间推移,encoders 变得更好,architectures 更简洁,vision 试图变得更“native”(比如 omni models)。但它仍然是二等公民,被这个领域多年为 LLMs 打造的能力所压倒。这条路很方便。我们知道 LLMs 可以 scale。我们的架构直觉、数据配方设计和 benchmark 指引(VQAs)都高度为 language 优化。

对 physical AI 而言,2025 年由 VLAs 主导:在一个 pre-trained VLM checkpoint 上嫁接一个 robot motor action decoder。它其实是“LVAs”:language > vision > action,按公民等级递减。同样,这条路很方便,因为我们熟悉 VLM recipes。但 VLMs 中的大多数参数被分配给 knowledge(例如“这团像素是 Coca Cola 品牌”),而不是 physics(“如果你把可乐瓶弄倒,它会摊成一滩棕色液体,弄脏白色桌布,并毁掉电机”)。VLAs 按设计很擅长 knowledge retrieval,但头重脚轻的地方错了。多阶段嫁接式设计也不符合我对简单性和优雅性的偏好。

从生物学上看,vision 主导了我们的皮层计算。我们大约三分之一的大脑皮层用于在枕叶、颞叶和顶叶区域处理像素。相比之下,language 依赖的区域相对紧凑。vision 是连接我们的大脑、motor 系统和物理世界的最高带宽通道。它闭合了“sensorimotor loop”——这是 robotics 最重要的待解循环,而中间不需要任何 language。

自然给了我们一个存在性证明:一种高度灵巧的 physical intelligence,具备极少的 language 能力。猿。

我见过猿驾驶高尔夫球车,也见过它们像人类技工一样用螺丝刀更换刹车片。它们的 language understanding 不超过 BERT 或 GPT-1,但它们的 physical skills 远超我们任何 SOTA robots。猿也许没有好的 LMs,但它们显然有稳健的“what if”心理图景:物理世界如何运作,以及会如何对它们的干预作出反应。

world modeling 的时代已经到来。它符合 bitter lesson。正如 Jitendra 喜欢提醒我们这些 scaling addicts 的那样,“Supervision is the opium of the AI researcher.” 整个 YouTube,以及 smart glasses 的兴起,将以前所未有的规模捕捉我们世界的原始视觉流,远远超过我们训练过的所有文本。

我们将看到一种新的 pretraining:next world states 可以不止包含 RGBs——3D spatial motions、proprioception 和 tactile sensing 才刚刚开始。

我们将看到一种新的 reasoning:在 visual space 而不是 language space 中进行 chain of thought。你可以通过模拟几何和接触来解一道物理谜题,想象零件如何移动和碰撞,而完全不必翻译成字符串。Language 是瓶颈,是脚手架,不是地基。

我们将面对一个新的潘多拉魔盒,里面装着许多开放问题:即便有了完美的未来模拟,motor actions 应该如何 decoded?pixel reconstruction 真的是最佳 objective 吗,还是我们应该进入 alternative latent spaces?我们需要多少 robot data,scale teleoperation 仍然是答案吗?在完成所有这些练习之后,我们终于是在接近 robotics 的 GPT-3 moment 吗?

Ilya 终究是对的。AGI 并没有收敛。我们回到了研究的时代,而没有什么比挑战 first principles 更让人兴奋。

译自 X · 研究者一手 · 录于 二〇二六年五月九日