为何视频Agent模型是下一个方向 — Ethan He, xAI Grok Imagine

Why Video Agent models are next — Ethan He, xAI Grok Imagine

二〇二六年六月二日收听原版播客

摘要

Ethan Ha 近期从 xAI 离职，此前他在 NVIDIA 主导 COSMOS 世界模型（视频基础模型），后于 2025 年中加入 xAI，在三个月内带领小团队从零构建并发布 Groq-IMAGINE 0.9（音频-视频联合生成模型）。他负责视频模型预训练与后训练，包括视频扩展、参考到视频（Reference to Video）及实时长时域世界模型项目。Ha 指出，视频模型训练成本与中等规模 LLM 相当，需数十 PB 存储与数千万美元 GPU 成本，且当前模型能力提升主要来自语言侧（提示重写器与智能体框架），而非扩散架构本身。他预测视频智能体（video agent）将在 2025 年底达到制作级质量。

好的，今天我们请到了最近刚从 xAI 离职的 Ethan Ha 来到演播室。欢迎你。

谢谢，很高兴来到这里。

我们还请到了 Vibhu。你最初加入我们或进入 latent space 这个圈子，是因为你在 NVIDIA 做 KOSMOS 项目，并且发表了一篇很棒的论文。我们很喜欢那篇论文，你也亲自做了展示。所以谢谢你。

是的，我还展示了 MOE 的内容。

对。

展示了两次，在 Latent Space。

对对对。你最初是怎么知道我们的？是我们联系你的吗？还是怎么回事？

不是，其实是社区。我意识到，哦，原来有个线上社区，大家每周通过论文俱乐部讨论 AI，互相学习。感觉非常好。

是啊，我们连续做了三年，连圣诞节和新年都没停过。有好几周我都想停下来了。

那就停吧。

不不不，挺好的。我记得你发过一篇论文，我当时觉得，哦，挺酷的。我们有论文俱乐部。

来展示一下。

不过可能是我后来联系你的。

对，因为这是个业余俱乐部，所以挺不寻常的，但有时候论文作者会亲自来讲解。今天我们刚讲了 Poolside 的论文，看起来非常不错。

昨天刚发布的。挺有意思的，对吧？完全开源，他们讲了所有东西，包括系统。所以这篇不错，推荐大家去读。

跟我们说说你转到 xAI 的过程吧，因为我其实不知道你是什么时候加入的。就讲讲这段经历。

在 xAI 之前，我在 NVIDIA 做 COSMOS 世界模型。COSMOS 是一个巨大的视频基础模型，旨在模拟世界，为所有机器人研究者提供基础。在那里，我构建了 KOSMOS-1 之后，发现这个东西也有类似语言模型的缩放定律。我们需要进一步扩大视频模型的规模。所以我意识到需要去一个计算资源更充足的地方。这就是我——

比 NVIDIA 还多？

GPU 资源最丰富的公司？是的。

从时间线上看，COSMOS 是什么时候？挺早的吧？它是开放世界模型，开放论文。

大概是 2024 年底。2024 年底。然后 2025 年中，我去了 xAI。当时我加入的时候，xAI 正要开始构建视频模型和多模态模型。没有基础设施，没有数据，也没有模型。只有几个工程师，我们在三个月内建成了，发布了第一个模型 Groq-IMAGINE 0.9。从那以后，我一直做视频模型，工作重心从预训练转向后训练。比如，我可以做视频引用，类似 Cameo 功能，还有视频扩展。在我离开之前，我负责一个世界模型项目，带领一个小团队专注于实时长时域视频生成。

你能大概说一下路线图吗？比如，你加入了一个全新的团队。Groq 之前只做文本，或者他们和 BFL 合作做图像生成。那么构建模块是什么？你有计算资源，可以从某处获取数据。当你组建一个新团队时，应该按什么顺序考虑事情？

其实更深一层，不只是获取数据，你们还得自己处理数据，对吧？所以你们发布得很快，但确实。

对，三个月真的快得惊人。

是的，我要说这多亏了我在 NVIDIA 的经验。因为第一次我们一起构建 KOSMOS 时，花了大约一年时间。所以这是我第二次做，大概知道该怎么做。我认为最重要的是人才，但每个人都很有能力、很聪明，彼此紧密合作，朝着共同目标努力。这大大加快了速度。所以减少了人与人之间的沟通成本，每个人都能朝着同一个目标努力。就像每天日程上没多少会议，可能一天一次同步会，之后就是埋头干活。那段时间挺有意思的。另外，xAI 有非常扎实的数据、数据基础设施和模型基础设施基础，这些支持对模型开发帮助很大。当我观察模型训练时，实际上最重要的不是别的，而是你每天能做多少次迭代？迭代次数越多，训练模型就越快。所以如果你有很强的基础设施和大量计算资源，就能在很短的时间内训练这些模型。这给了你更大的容错空间，也让你有机会发现更多 bug。

对。迭代是什么意思？是几百步，还是什么？

比如说训练模型，从获取新数据，可能设计新算法，然后训练一个新模型，可能规模小一些。

对，就是搜索任何超参数的周期时间。

对，端到端的周期时间，直到评估这个模型。这个模型比上一次迭代好吗？是的。

所以在你之前，已经有人搭建好了让你能快速迭代的环境。

对，我觉得那里的基础对于开发和研究模型来说非常好。而且我经常觉得这有点无聊，但很多改进并不来自新算法，而是来自在数据管道、模型训练管道中发现各种小 bug。这些对模型质量的提升最大。

这挺有意思的，对吧？你说团队小，沟通成本低，但很多质量提升又来自找小 bug。这看起来有点矛盾，对吧？人多的话，按理说能解决更多 bug，但看到另一面也挺有趣的。

是的。

我还想问，你有没有试过用 LLM 来找 bug？我不确定。

我记得当时是 2025 年中，编码模型还没那么成熟。我记得 2025 年 12 月的时候，它已经非常好了。对，我当时就在用。它很有帮助。但有时候它生成的代码很难维护，虽然第一次构建东西非常快，但会生成一团乱麻似的代码，几千行，我维护不了，LLM 自己也搞不清哪里有问题，怎么改进。但现在我觉得好多了。对，我还想提一点，现在编码模型效率高多了，能帮我们更快地实现东西。计算资源可能再次成为瓶颈，因为以前如果你想训练一个新模型，比如生成新的合成数据，或者写一个新算法，可能需要几周。在那段时间里，你可能没有实验可跑。现在你可以在几小时内完成，然后立刻训练模型。现在你得有足够的计算资源来尝试所有想法。所以计算资源可能再次成为迭代速度的瓶颈。

对。说实话，我觉得这工作压力挺大的，因为你会想，我应该尝试所有东西。如果我没做到，那就是我没做好工作。

而且还有压力，你每小时消耗几千块 GPU，非常昂贵。这些计算资源本可以给其他研究者用。

但有大佬 Elon 买单。

有大佬 Elon 买单。但计算资源还是有限的。你想用好它，想得到更多。

那确实压力很大。不过我觉得现在有了编码模型，很多这类工作都可以自动化了，这好多了。其次，这是一场马拉松，所以你得保持健康，作息规律。

三个月内从有到无，这种落差很难接受。

是啊，而且我觉得文化上，大家都知道这里的人工作非常拼命。我特别想聊聊你提前发来的笔记里，关于 VideoGen 训练成本的具体评论。这应该是在 Colossus One 上跑的吧？就是那个 300 兆瓦的集群。你愿意分享多少都行。

我觉得我们主要聊三件事：VideoGen，还有你们发布的 ImageGen 模型。你想不想先完整说一下——从零到一，几个月时间，Create ImageGen 经历了哪些阶段？

哦对，我可能跑题了。

抱歉。然后从那里开始，还有 VideoGen、AudioGen。我很想接着聊这些，但最初几个月到底是什么样的？小团队，大量 bug，不断迭代，但具体是什么情况？我们是直接拿现成的东西吗？还是只搞数据和算力？那几个月怎么过的？你们是怎么做出最先进的 ImageGen 模型的？

你是怎么开始的？嗯，我不能具体说我是怎么做的，但过程相当标准。我可以拿 KOSMOS 举例。主要是这样：要构建视频模型，你得先构建图像模型，而构建这两个模型所需的数据是 100% 合成的配对数据——语言和图像，或者语言和视频。因为互联网上的视频其实和文本没有天然关联。比如 YouTube 上，视频有标题、描述和评论，但这些通常和视频本身不相关。比如视频是山景的自然画面，标题却是"我今天好开心"。两者毫无关联。所以第一步，你必须生成语言和视频的合成配对。你从互联网获取视频，然后用 VLM 给视频写描述。这里有个问题：一开始怎么得到 VLM？如果没有——

你融合模型，对吧？

比如如果根本没有 VLM 存在，你怎么生成文本？那是不可能的。

明白了。

一开始，你得让人尽可能详细地描述视频。比如，让他们描述所有物体、所有角色、所有互动和对话。这就是 COSMOS 标注的协议。我们给标注员的目标是：你必须尽可能详细地描述视频，让一个盲人听到这段文字后，能在脑海中重建出视频的样子。

视频还是图像？

你说图像？视频或图像，两者都行。好。

这和我们从 CLIP 和 DALL·E 时代过来的做法很像，对吧？

是的。

都是基于对图像进行非常详细的描述来训练。视频也一样，只不过不用多模态模型来输入视频或图像并写出丰富描述，你也可以——

我觉得这是传统的有监督或高度人工标注的视角。我感觉无监督方法有突破，对吧？当你有足够的数据来启动，比如直接扔一个 Common Corpus 进去，做无监督的视觉和语言配对。就是图像和文本交错出现，模型自己学习。对我来说，这就是 VLM 的突破，和 CLIP 不同，和预 LM 时代也不同。

对，有意思的是，你其实两种数据都需要。比如，你需要先启动起来。在生成模型训练中，通常也会加入一小部分未标注数据。这样模型被要求在没有文本指令的情况下生成视频，也能帮助模型泛化。所以在这个生成合成配对的阶段之后，一个重要的常见步骤是训练一个图像或视频的压缩器或分词器。因为理论上你可以在纯像素上训练图像或视频模型，但问题是 token 太多了。比如一张 1000x1000 的图像，就是 100 万个 token，100 万个像素。用 Transformer 训练是不可能的。所以你需要训练一个分词器，把图像映射到潜空间，再从潜空间映射回图像。

所以我们播客的名字就是这么来的。但基本上你在说词汇量大小。

对。

那么，100 万是不可能的？

在生成模型中，词汇是连续的，是一个连续空间。你可以理解为把图像映射成一个固定长度的向量，比如 16 或 48 维。然后把这个向量映射回图像空间，这个映射是基于 patch 的。比如你有一个 16x16 的 patch，把这个 patch 的像素映射到潜空间。

我们聊过这个了。这就是 Vision Transformer——

VAE。对，VAE。

你基本上压缩输入，在更小的维度上做生成、推理等所有操作，然后再投影回去。

VAE 是一种压缩形式，但对我来说，patch 的概念来自 ViT，对吧？那篇论文的标题就是"16x16 is all you need"之类的。而且很多人也把这种 patch 和卷积做比较。

对。

这有点像用新范式重构旧范式。

是的。实际上在 VAE 中，既有卷积网络也有 Transformer，两者都可以用。经过 VAE 之后，你得到的是潜空间 token 和语言 token。然后训练扩散 Transformer——通常生成模型用扩散 Transformer——过程其实相当标准，和训练语言 Transformer 模型非常相似，差别不大。只是输入视觉 token，输出视觉 token。唯一的区别是有一个去噪过程。你训练模型去掩盖部分噪声：给视觉 token 加上随机噪声，然后训练模型去除这些噪声，生成干净的 token。在推理时，模型可以从 100% 的噪声开始，迭代地去噪。

对。还有，为了加速扩散技术树上的进展，有 CFG，还有潜扩散，这方面 Stability 和其他团队做了很多架构上的开创性工作。你想深入聊这个，还是直接讲视频那边？随你。

训练出这样一个图像模型后，它之所以能成为视频模型的基础，是因为图像模型训练成本更低，而且语言与文本——抱歉，是语言与图像之间的连接更密集。例如，你在十亿张图像上训练，文本到图像之间存在映射关系；而训练同样规模的十亿个文本到十亿个视频，成本要高得多，因为视频自然比图像包含更多 token。扩散模型对语言的理解完全来自这种映射。如果映射不足，比如只训练了一千万个视频，训练数据中可能看不到足够的语言 token，模型就无法充分理解人类意图。所以通常的做法是，先训练图像扩散模型，然后在此基础上引导出视频模型。

我确实想问一个问题，因为我觉得你是我聊过的第一个做视频模型的人。我们之前跟 Luma 那些人聊过。视频压缩有很多技巧，基本上帧与帧之间差异不大，所以实际上不需要重新生成或重新保存整个帧，对吧？比如 MP4 压缩之类的。用这些技巧有吸引力吗？据我所知，大家似乎都直接说，不，我们每帧都生成。这大致是当前的技术水平吗？

有几种不同的方法。首先，如果你想直接使用 MP4 压缩，把压缩结果作为 transformer 训练的 token，人们确实试过，但主要挑战是 MP4 token 的潜在空间对模型来说不太容易理解，训练起来极其困难。所以我们创建了 VAE，它能生成更连续的潜在空间，让模型更容易理解和学习。即使在 VAE 内部，潜在空间的难度也不同。你可以想象，最简单的 VAE 就是把一张图像的所有像素打乱成一个向量，这样就不需要训练任何 VAE，但那个潜在空间对模型来说极难在上面训练。这就是为什么关于如何压缩 token 存在一些争论。你提到可以逐帧压缩，也可以压缩时间维度。是的，区别在于，如果压缩时间维度，压缩率会高得多，因为帧与帧之间存在时间冗余——这一帧和上一帧很可能大部分相似，只有一些微小差异。例如，在 1.2.1 VE 中，压缩率是 8x8x4，四个时间 token 被压缩成一个 token，这能节省大量上下文长度。如果逐帧压缩，可能只能做到 8x8x1，上下文长度会大四倍。不过，逐帧压缩的好处——我们稍后可能会再提到——是实时性和交互性。因为如果逐帧流式输出模型结果，模型可以立即响应用户的任何请求。而如果有 4:4 的时间压缩，即四倍压缩，就可能会有延迟。是的，天生就有延迟。

看来你对这个很着迷。我们直接提出来吧，反正视觉材料已经准备好了。实时视频生成有一些前沿应用。Flipbook 就是最近走红的例子之一，对吧？Flipbook 是什么？

Flipbook 有点像网页浏览器，你可以看到它顶部有浏览器 UI。区别在于，所有 UI 都是由生成式图像模型实时生成的。这里的一切都是假的，但你可以在这个想象的世界里探索。比如这里，我们展示的是“工程大金字塔”，模型生成这个来帮助我们理解它是如何运作的。如果我们想四处浏览并进一步了解，可以点击这里的一些描述，模型就会生成一个新页面、新子页面，描述我们想知道的细节。

所以基本上就像我们在播放一个视频，但它会暂停等待我们下一次交互，然后根据我们的交互播放下一段内容。

是的，挺酷的。

而且你可以决定自己的故事。所以这是——你知道，怎么建造金字塔？杠杆技术看起来很有趣，对吧？它展示了如何——

好的，我想知道这是什么。演示推文里帧与帧之间动画更多。

我觉得只是跳过了。

我只是跳过了很多帧。

是的，他们也有视频模式，但我想很多人都在用。

嗯，我看到了。

它不可用。有一个实时视频流，我们可以试试。

是的，这就是你看到的极端未来例子。我们显然还没到那一步，但在推理完全免费的世界里。

对。

这比生成代码和文本更好吗？

是的。我认为这是世界模型的最终状态。想象一下，互联网不存在，你输入 google.com，模型应该展示什么？模型可以想象出一些东西，这就是它想象出来的。这些网页完全不存在。所以我认为，随着推理成本下降，我们将拥有生成式 UI 来覆盖一切。想想编码模型的工作原理：它们为网页写代码，然后渲染——代码可能被转换成二进制，二进制再在屏幕上渲染像素。在机器学习中，每次有突破，显然都更趋向端到端。那么，为什么不让用户指令直接到像素呢？生成式 UI 将实现用户意图直接到像素，比如，即使我想要电子邮件，假设每个人都有相同的界面，但我希望它略有不同。我希望电子邮件像 TikTok 一样展示给我，这样我可以左右滑动处理邮件。或者你想要别的，我们可以有完全不同的东西。又比如，我在看 Instagram 故事，我不喜欢点赞按钮，总是误点，那就生成没有它的 UI。这将是对界面的革命性替代。未来，我们可能在后台有更强大的 LLM 和编码模型运行，而前端，扩散模型实际上会成为展示内容的前端。这就是我的想象。

是的。扩散前端，确定性后端。

对。

大概就是这样。

我觉得这非常昂贵，但，嗯，我觉得有趣的是，你把 LLM 在后端写代码称为确定性，不过好吧。

是的，你写一次，然后执行。

如果考虑成本。假设 H100 每小时 1 美元，每天用 8 小时，每月 30 天，那么每月要付 240 美元。你可能不想付这个钱，这甚至比 Cloud Code Max 还贵。但如果计算成本每年下降两倍，我认为未来很可能到来。

总是这样，对吧？计算成本下降，计算速度变快，模型变聪明，模型变小。

是的。我不知道你为什么说两倍，因为我觉得是 100 倍。在语言模型中，对于相同的 LM-Sys ELO 水平，大约每 12 到 18 个月提升 100 到 1000 倍。

这其实就是一切的总和，对吧？模型性能加上算力。所以这不仅仅是算力成本下降的问题，而是一个非常有趣的未来。

是的。对于网页设计师来说，我们得强调一下，可访问性是个问题，对吧？比如如何处理屏幕阅读器之类的？但没错，这比任何用代码生成的内容都能提供更高带宽的叙事方式。所以我认为这就是大致的思路。

我想补充一点。人类在观看视频时，输入带宽最大；而在说话时，输出带宽最大。所以未来可能会是这样：我们和AI模型对话，AI模型用生成式UI回应。这样，在Neuralink实现之前，我们就能以最大的输入和输出带宽与AI模型交互。

而且这也非常个性化，对吧？有些人很视觉化，有些人则不那么视觉化，他们更喜欢文字。但生成式UI最棒的一点是，它也可以包含文字。

是的。还有一个我们想提的项目，叫Neural OS。思路类似，但这里你实际上是用视频模型来模拟一个操作系统。没错。你可以玩《毁灭战士》，可以用Firefox。我觉得这个项目没那么令人印象深刻，显然，因为这是一个我可以运行的操作系统，但这里的一切都是想象出来的。

我习惯用Command-W来关闭Firefox标签页，结果没崩溃。

太沉浸了。

对我来说太沉浸了。我想关掉标签页，但没错，我可以玩生成的——

这速度快得惊人。

是的。

因为我记得大概一两年前有个演示。有人试图用图像模型做第一人称射击游戏。结果没有一致性，速度也很慢。但这里看起来，实际上就是《毁灭战士》。

我觉得这有两面性，对吧？一方面，运行游戏的核心是游戏引擎、所有光照、图形这些。而这只是视频，对吧？我们已经解决了一致性问题。这看起来还是像几年前的图像生成。有一些时间一致性，但基本上就是把图像拼接成帧视频。不过，这是一个很好的视觉呈现，可以用来描绘你想要的未来，对吧？我更多是这么看的。

这让我想到视频模型如何变得越来越好。Neural OS如果只看表面，感觉就像是我们现有Windows的劣质版本，对吧？但区别在于，这个模型是过拟合于现有操作系统的。它只能生成和这些系统一样的东西。但这其实也和视频模型类似。当我们训练这些视频模型、图像模型时，我们用互联网上的数据训练。互联网上没有超自然的想象内容。但一旦我们训练好这个模型，你可以提示它生成数据集中从未存在过的超自然内容。所以，如果你用整个互联网上的标准屏幕录制来训练你的Neural OS或Neural Computer，这个模型就能想象出全新的界面来与计算机交互。

是的，这对我来说很神奇。通常，泛化到分布之外是不好的，但不知何故，我们学到了一种内部世界模型。你说，这个加上，但看起来像彩虹和蝴蝶，它就会照做，而且还能说得通。

是的。

所以，这挺酷的。我不知道还有什么要评论的。我确实想再多谈一点模型架构方面的问题，我觉得你刚才提到了。这真的很吸引人。我们很少有机会深入讨论这个。我们报道过的论文中，有一篇是每年发布的Segment Anything。我不知道你是否关注——我的意思是，你是计算机视觉领域的，所以他们做了记忆注意力机制，这挺有意思的。我一直觉得，任何能跨越时间维度、保持一致性的东西，都非常吸引人。我不知道这是否就是——计算机视觉领域渗透到视频生成领域，我认为这还没被充分探索。我们讨论它时通常用于标注，但实际上你可以直接借用这个架构本身。

而且还有完全不同的方法，对吧？你提到了世界模型这个词。所以我们从视频模型谈到了世界模型。有扩散模型，但人们也在尝试其他方法。也许我们之后也会谈到这些。

是的，他对世界模型等有一套完整的定义。我觉得我们抛出了很多内容。你想评论什么都可以。

我觉得我们真正应该回过来讨论的一点是，我们刚才谈到了训练图像生成到视频模型的步骤。我们很少看到的是，你提到了训练数据的差异，对吧？视频模型可能泛化能力没那么强，但训练一个大型视频模型的成本是多少？我们知道大语言模型的大致成本，比如今天发布的Poolside项目，它是一个Gemma级别的模型，在这么多H200上训练了大约40万亿个token，花了这么长时间，对吧？你可以看到确切成本是多少。所以，多少GPU小时乘以多少H200成本？那么，对于视频模型、图像模型，我们如何做类似的成本分解呢？

我可以分享一些粗略估算。令人惊讶的是，视频模型的成本和大语言模型相当。显然，最大规模的是语言模型。也许相当于中等规模的语言模型。光是存储视频本身，成本就很高。你可以查一下AWS之类的。假设你有10亿个视频，每个视频5兆字节，那么你需要5PB来存储这些视频。而且别忘了，我们用VAE压缩视频，还需要存储这些连续特征，存储量也和视频本身差不多。所以，光是存储这些视频和特征，就需要几十PB。

我刚查了一下计算。5PB在S3 Standard上每月要10万美元。

好的。

而且你还需要，比如TensorFlow数据库，20万美元。更贵的是互联网的入站和出站流量。你下载这些视频就需要流量。我相信在AWS上，这比存储视频还贵。每次训练运行，你可能需要拉取一次数据。如果训练多次，成本更高。所以，光是存储和网络成本，我猜每月就要几百万美元，还没算GPU成本。

我顺便提一下，算力租赁，比如GPU租赁，非常高效。一方面，你可以像xAI那样建自己的数据中心。我们是不是也应该自己建存储和算力？和云成本相比，你能省很多。没错，尤其是出站流量之类的。

所以，这是个好主意，但也会带来一些自身的挑战。当然，当然。比如建GPU数据中心的人，可能没预料到需要这么多存储。而建存储的人，通常只是把存储建在某个地方，用CPU就行。

我刚查了一下。AWS 只对出站流量收费，入站不收费。5 PB 的 Tier 5 价格是 23 万美元。

是啊，甚至比存储还贵。

但存储是按月收费的，对吧？你存进去就取不出来了。所以还行，挺酷的。

所以这是其中一方面。简而言之，我粗略估算一下——

数据比你想象的要大得多。

对，我粗略算了下 GPU 小时数乘以 GPU 成本，也差很多，我肯定漏掉了一些情况。

而且你基本上比普通训练更受 I/O 限制。是的，是的。因为数据加载、缓存，所有环节都变得极其重要。

对。所以在 KOSMOS 中，我们做了很多优化来避免 I/O 瓶颈。嗯，说到训练，实际训练模型时的 GPU 成本，如果你看看开源模型，这些视频模型有多大。比如 LTX 有 190 亿参数，那是一个密集模型。而且人们也在探索 MOE（混合专家模型）。所以可能是 200 亿活跃参数、总共 1000 亿参数。那甚至和中等规模的 LLM（大语言模型）差不多大。再看 token 数量，我们在 Cosmos 中公开过，也是几十万亿个 token，而且是视觉 token。综合来看，训练这些视频模型的成本实际上与 LLM 相当，更不用说基础设施与 LLM 略有不同，所以训练这些模型的效率可能更低。

那你们能利用传统扩散模型的加速方法吗？比如图像领域有 LCM、LoRA。微调方面也有很多工作——流匹配。对，有流匹配。已经做了很多。推理侧的扩散方法有一些重叠，还是？

对，区别在于推理侧完全是另一回事。我认为训练侧要降低成本可能有点难。而推理侧最大的收益来自这些模型的蒸馏，这叫做步数蒸馏，与 LLM 中的知识蒸馏略有不同。通常对于流匹配模型，你需要大约 100 步，而扩散模型甚至需要 1000 步才能生成一张好的图像或视频。步数蒸馏是尝试让模型学会用更少的步数生成。有点像现在，你用完整模型在 100 步内生成，然后你拿一个只生成 10 步的模型，让它从完美模型那里学习。对。为什么这能行？强到弱模拟。有点像强到弱。我猜从建模角度看，强模型（教师模型）试图对整个互联网上的图像和视频进行建模，那个分布极其复杂。而蒸馏后的模型只是试图从教师那里学习。教师是一个模型，大小固定，其分布比整个互联网简单得多。这就是我认为步数蒸馏能奏效的直觉。所以通常这些用于生产的模型只运行几步。在 KOSMOS 中，我相信我们有 4 步和 8 步的版本。如果你做一些更简单的任务，比如图像到图像的转换，它甚至可以在第一步就完成，比如 KOSMOS transfer 中的一步生成。

对，我认为这也是很多一致性模型工作的指导直觉。我给你发了一个 SCM 的链接。不知道你看了没有。对我来说，那实际上是我见过的最令人印象深刻的 OpenAI 论文之一，一致性模型这个统一的大概念。不知道你有什么看法。

有几种不同的方法。哦对，就是这个。

2 步对比 20 步或 100 步，随便。

已经做出来了。有几种不同的方法，比如一致性模型。还有，实际上我们不应该忘记 GAN（生成对抗网络）。GAN 其实是步数蒸馏的鼻祖，因为它一开始就只训练一步。所以实际上很多方法，比如分布匹配蒸馏，就使用 GAN 作为其损失函数之一。GAN 只是告诉你，嘿，生成一张图像，然后它有一个判别器来判断这张图像是真是假。所以模型只需要学习一种分布，而不是完整分布，因为在训练中，模型被要求从互联网上重建真实图像，这极其困难。而训练 GAN 时，它是一个一步过程，只是说，嘿，你生成图像，这张图像看起来和互联网上的图像一样真实吗？这是一个简单得多的任务。人们通常会把多种方法结合起来，比如一致性模型和分布匹配。这样我们就能得到这些少步模型。

好的，那我想补充一个方面：音频。对，还有视频。

对。GPT-4 Imagine 0.9，我相信它是第一个大规模部署的音频-视频联合模型。

所以那是你的第一个模型。

对，那是 Grok Imagen 的第一个模型。它是音频-视频联合生成。我认为难点在于模态对齐，因为在这个联合模型之前，我们有文本到视频的对齐，有文本和视频之间的对应关系。通常大多数 VLM（视觉语言模型）能理解图像和视频，视频很少，而且它们大多不理解音频。如果你看语言模型侧的音频生成，你可以和它们正常对话。但如果你让它们唱首歌之类的，通常效果不太好。而且它们也没有音乐。难点在于音频实际上有两个组成部分：离散部分和连续部分。离散部分就像语言，当我们说话时，它只是——这是一个 ASR（自动语音识别）问题。对。对。可以说是带有某些特征的文本 token。但音乐——我想语音领域的人会不同意。

就像不流畅的地方，还有语调。

我说大致如此，但音乐完全不同。它非常连续，你不能像语言模型那样用离散 token 来建模。这就是模型面临的难点。更不用说我们还要把文本、视频和音频对齐在一起。对。所以怎么做？一些重大挑战是：首先，我们谈到 VLM，它们大多无法理解音频。所以你必须想办法为音频生成合成数据。你必须给模型加标注，这涉及大量的合成数据和人工标注工作。而且毫不意外，大多数 LLM 在识别节拍、音调和音乐细节方面非常差。它们能给出一些大致预测，比如这是哪首歌，但很难描述音乐的细节。就像我们在图像生成中提到的，你必须尽可能详细地描述图像，这样盲人才能重建它。这里也一样，聋人不需要实际听到就能重建音乐听起来的样子。也许你可以认为它需要具备所谓的“子要素”。你必须包含音乐的所有细节。还有对话。

所以挑战通常在于音乐和音频这类东西，还是说有一个基线？比如，有足够的数据让我们理解旁白、对话，但音频中的细微差别才是你遇到所有数据问题的地方，还是从一开始你就直接全部搞定？

所以一个关键点是对齐。作为模型，它需要知道视频和音频在时间上的对应关系，比如在哪个时间戳上视频和音频的 token 是匹配的。实际上，大多数其他模态都没有这种对齐。想想文本和图像、文本和视频，它们只是松散对齐。你可以有一段描述说明视频里发生了什么，但通常不需要精确到——比如在 1 秒这个时间点发生了什么？这种描述非常粗略。对，没错。

那你们需要消融实验的理想时间步长是多少？大概是 4 秒左右？

这取决于你如何设计模型，让它具备时间模态的感知能力。所以模型是能感知时间的，这在 LLM 中相当独特。如果你让 LLM 完成一个任务，比如问它，它会说这个任务大概需要 12 小时。但一小时后它回来说，我已经花了 2 天，什么都耗尽了。对，LLM 本身没有时间概念。

我觉得这不只是它们没有时间概念的问题。我认为这多少是有依据的，对吧？比如你让一个人去开发某个功能，去实现它。你大概会有一个预期，知道这需要多长时间，而不是按 LLM 的速度来算，对吧？想想两年前，如果我让你给 Latent Space 做一个新的前端，带搜索栏之类的，你会估计需要几天时间，对吧？所以你跟 LLM 说去做这个，它会说需要几天。但我觉得这多少是有依据的，不是说它们理解得很好，而是这个例子能看出来源，对吧？它是在所有文本上训练的。

它们是在估计人类会怎么说。

对，因为数据大致就是这样。

没错，它来自互联网上的语料。人们会有个估计。

对，而且不只是在直接的训练样本里，对吧？只是你对 token 的世界理解，对事情需要多久的理解。比如读一本书，就算你什么都不做只是读书，也得花几天时间。所以我会说，上 Reddit 花了我几小时。读完这篇研究也得几小时。

但这有点跑题了。对，这是我之前没表达过的一个思路，基本上就是说，一个完整的世界模型也必须是递归的，意味着世界模型中的参与者必须意识到自己拥有一个世界模型，这整个就是递归的链条。而且世界模型可能是错的，需要更新，等等等等。对，我们在 newsletter 里也讨论过，需要递归对抗性世界模型。

好吧，我就想问一下，你怎么定义世界模型？哦，对，我们来聊聊这个。为了提供背景，我们之前讨论了视频生成，如果你说世界模型有区别，你的定义是什么？

你怎么看这两者？对，先声明一下，我不打算争论什么是世界模型。定义很多，我就从多模态领域的角度说说我的定义，主要围绕视频。世界模型就是实时交互的长时域视频。有三个部分，我们一个一个说。首先是交互。看看 Playbook 和神经计算机。世界模型的交互部分允许你通过键盘、鼠标，可能还有语音与它互动。这些都是你可以与模型交互的模态，模型应该给出合理的回应。第二部分是实时性。比如你移动鼠标，如果世界模型生成一个游戏，它响应能有多快？如果你是职业 CS:GO 玩家，响应时间得在 10 毫秒以下甚至更短。不过大多数——哦，60 FPS。那就 300 FPS。

500 FPS。等等，好吧，我没算，但没错。

好，300 FPS 就是 3 毫秒。所以你得在毫秒级内响应。大多数视频模型做不到。但如果是数字人这样的视频模型，响应时间可能更宽松，比如实时语音交互通常是 200 毫秒。这宽松多了。但即使 200 毫秒也很有挑战，因为记得我们提到过 VAE 带来的时间压缩。如果你不压缩时间维度，序列长度会爆炸。所以要让模型具备实时性，你必须处理长上下文问题。第三部分是长时域。因为我们不会只玩几秒钟的视频游戏。大多数视频模型只能生成几秒。我们要玩几分钟、几小时。模型必须能生成长内容。把这三者结合起来，就是实时、长时域的交互式视频。我认为最终状态会是，比如一个视频版的 Playbook，你可以与神经计算机交互。你移动鼠标，点击生成式界面，它通过实时生成的像素来回应。但要达到这一步，路还很长。所以我在 Gorky Imagine 领导一个小型世界模型团队时，第一步就是构建视频扩展。视频扩展——啊，这是交互性的第一步。对，第一步。

所以这是第一步。你这里有视频编辑。没错。

对，第一步。因为它解锁了长时域视频。通常大多数视频生成模型，你给一个提示或一张图片作为初始帧，生成视频，就完了。一次性的。有些创作者会尝试把最后一帧作为第二段视频的第一帧。有时能行，但重复几次就会退化，而且没有整个视频的上下文。

所以时间——

对，因为你只给了它最后一帧，当然会这样，对吧？

没错，正是。

但这其实是个挺有趣的技巧。如果你见过——

哦不，他有更好的办法。

对对对。举个例子，Vue 我记得Vue 3只有1秒的上下文，就是上一段视频。这比只用最后一帧好一点，但存在同样的问题，质量会下降。比如你多次扩展生成到1分钟，视频质量会比第一段差很多。第二个问题是，模型缺乏对之前发生事件的长期记忆。比如生成两人对话时，他们的声音可能会随时间变化，尤其是当这1秒的条件信息没有覆盖之前的上下文时。这些都是核心挑战。而Groq Imagine Video扩展功能拥有所有之前生成视频的历史上下文。它能知道谁在说话、出现过什么物体等等，并基于这些信息生成下一段视频。如果简单粗暴地把所有历史视频token都塞进上下文，上下文长度很容易爆炸。对于视频模型来说，我估计上下文长度可能达到几百万。上下文长度。这有什么问题？比如在KOSMOS中，仅仅5秒的视频就需要5万到6万个token。如果你生成50秒，那就是50万个token。再长一点，很容易就爆炸了。这个长时程问题是我们试图用模型解决的第一步。结果发现，用户非常喜欢视频扩展功能，很多创作者都用它来制作更长的视频。这也是我喜欢的一点，你们在最终目标之前先有了一个中间步骤，而不是直接一步到位。

是的，但我能看出你对最终目标有很强的愿景。

对。这看起来是个效率问题吗？比如，我们现在有数百万token的上下文，如果你拿语言模型来类比，我们一开始上下文很短，2000、8000，然后扩展到100万、1000万，当然存在有效上下文的问题，但归根结底，这值不值得？当然，还有训练数据的问题。在视频领域可能稍微容易一些，因为我们有1亿token的视频，对吧？直接拿一部电影作为完整上下文。那么，这是推理效率的问题吗？比如成本很高，但我们知道怎么解决？还是说，为什么不能采用这种方法？我更大的观点是关于你提到的世界模型的第二点，你说它需要是交互式的、实时的，对吧？你应该能玩游戏并实时看到交互。我在研究中发现，你实际提供的东西往往和你构建的东西不同，对吧？我们讨论过蒸馏。你训练一个大模型，然后蒸馏、量化、做推测解码。我们做所有这些来高效地提供服务。难道我们不应该先有一个能良好交互的世界模型解决方案，做推理优化，提供服务，然后再做蒸馏吗？也就是说，先解决实时性问题，再优化效率。另一个类比是持续学习。我们需要有人先解决这个问题，证明它即使效率不高也能工作。过几年，人们会把它变得高效。常规注意力机制也是一样，它工作了好几年，人们提出了不同形式的注意力，并把它扩展到长上下文的高效版本。所以这里有两件事，对吧？一是它似乎已经能工作了，你已经扩展了它。我们能不能随着时间的推移让它变得更高效？如果这个方法有效，我们还需要一个不同的方法吗？交互也是一样，如果我们能找到一种让它工作的方法，我们之后可以从推理角度让它更高效。

对，这确实是个很好的观点。在视频中，其实有很多冗余信息。我们通过VAE解决了很多像素级别的冗余，但在长距离、长时程的视频中还有更多冗余。比如，一个角色在第一段中出现，然后消失，直到视频结尾才再次出现，那么在生成中间部分时，你可能不需要这个上下文。你只需要在需要的地方用到那个角色。所以这也是我帮助构建另一个功能的原因，叫做“参考到视频”（Reference to Video）。

是这个吗？是同一个模型发布还是不同的？

是不同的。你可能需要搜索“reference to video”。参考视频功能允许你上传最多7张图像作为条件来生成视频。比如，可以是角色、物体甚至场景。比如我想用肖恩的自拍照和一把刀作为条件。

对，我们还有一只狗。

把狗放进去。对，你可以把它们放进去，视频模型就会生成视频，并从参考中复制上下文。这可以解决很多问题。比如长上下文问题，它不需要很长的上下文，但我觉得这是一个中间解决方案。有点作弊。对。所以模型应该能够有选择地知道在哪里引用参考。比如，如果我想生成一部电影，我每次自动回归生成10秒。现在这个角色出现了，我可以回溯到它第一次出现的地方，把那个上下文带回来。对，这个我放了参考。这是Optimus、爱因斯坦、我自己、安妮。

有意思，我用Grok搜索找到了这个。它抓取了你LinkedIn上的帖子，但我们找到了。好。

这是个问题。不是你的错，但XAI没有很好地宣传你们做的这些工作，他们只是发布了模型就完了。但实际上，这些细节非常非常好。据我所知，你刚才描述的一切都是最先进的。没有其他人做到过。谢谢。对，很多。

我很喜欢。

然后你们只发了一篇带饼干的博客文章。我觉得这不够，你知道吧？但显然这是大家想了解的高层数据。

不过，这确实有意思。部分原因也是有些实验室不分享研究背后的细节。

但这本质上是在炫耀他们有多厉害，对吧？为什么不说你们能够用完整上下文进行扩展？这不是什么秘方，而是“我们做到了”。

是啊，我不知道。可能不同实验室的沟通风格略有不同。

对。总之，如果XAI有人在听，我们很乐意帮你们讲述你们的故事。好。所以你做了参考功能，我觉得你想表达的是，这有点像一种权宜之计，对吧？你可以做7张，但100张呢？对。那就需要完全不同的方法了。

所以我觉得这就像是一种从历史中选取上下文的机制。你可能不会把整个历史都放进上下文里。比如有一篇叫 FramePack 的论文，它采用了一种启发式方法：最近的历史，比如最近1秒，我会把整个历史放进去；而更早的历史，我会压缩它，让视频变得更小。所以我遵循这个模式，这个漂亮的模式，即最大序列长度是固定的。离当前帧越远，图像就越小。这只是一个启发式方法。我认为它可以更自动化。模型本身是知道的，比如它知道历史中的哪些部分可以被选中。所以这部分研究实际上有很多人在积极进行。这也挺有趣的。我觉得这部分关于长上下文的研究，其实比大语言模型（LLM）部分要稍微超前一些。比如在 LLM 中，如果你的上下文不断增长，假设你调用了工具，工具调用的历史非常长，那它仍然在上下文中，并且不断增长、不断增长。即使你把话题切换到别的东西，整个上下文还在那里。有一些 agent 框架可以帮助你修剪工具结果，比如当你查询一个文件时，只显示前200行之类的。这些都非常依赖启发式方法。

给听众们说一下，我们写过一篇关于 Cloud Code 泄露的文章，里面提到了8种不同的修剪方式，包括修剪工具结果等等。所以如果感兴趣，可以去看一下那类内容。

是的。我认为持续学习的一个突破可能在于一种自动管理自身上下文的方式——

这些都是启发式方法，它们最终会被机器学习取代。

没错。有趣的是，LLM 和视频模型都在研究同样的事情。

还有一点有趣的是，在你展示的那篇论文里，这实际上是在模型层面发生的，对吧？相比语言模型，当然我们有基础的 attention，但我们会自己做压缩，自己做修剪。这和模型误差是分开的。最终希望它们都能融合在一起。

是的。我认为这是一种 attention 的形式，但又不是推理型的 attention。我觉得这和普通的 attention 不同。这样说有道理吗？

是的，不同之处在于，attention——先不提稀疏 attention——像普通的 UKV attention，你必须关注所有的 token。是的。所以你没有一种高层机制来丢弃那些你不想关注的 token。作为人类，我们的注意力跨度其实小得惊人。是的。你只能记住一个电话号码的11位数字。但我有特征检测能力，对吧？

我能检测到，哦，在一个11位的电话号码里，有一串1、2、3、4。非常好的模式匹配器。

但人类的上下文，比如注意力之所以能工作，是因为我们可以动态地从不同地方拉取信息。我认为同样的机制也会发生在 LLM 和视频模型上。

是的，RLMs 是最近的一些工作。嗯。这不算太疯狂，但它只是递归的。

我认为这在模型中也有些内在的特性，对吧？比如这里有个很好的例子。你把这些东西调出来，你可以正常阅读，但语言模型也非常擅长处理杂乱的内容。你知道，如果你有一个——

我往里面扔一些拼写错误，也没关系。

是的，是的。你有一份转录文本，或者随便什么东西，直接扔进去，它就能很好地从噪声中解析出内容。这可能是一种蛮力方法。它可以浏览、推理，但两者之间有相似之处。

我觉得你把世界模型和视频生成联系起来，这真的很吸引人，我觉得很多人不会直接从像你这样的人那里听到这些。所以我认为这非常有帮助。还有其他工作吗？我们聊了视频、音频、世界模型？在 Omni 团队里还有其他东西吗？

或者你想聊聊 xAI 的其他工作？看起来我们公开看到的东西，哦，酷，cookies，然后背后还有更多内容。有很多深度。有没有什么当时被低估的东西？

是的，我觉得作为一种文化，它挺有趣的，也有点被低估了。这种文化可以用三句话概括：快速行动、构建、没有目标太大、以及第一性原理。比如，目标设定得非常宏大。当我最初思考的时候，这几乎是不可能实现的。

比如，我能在3个月内做出一些东西。那是像这样吗：好的，我们组建团队，想要图像、想要视频，在这个截止日期前完成？或者，你是如何倒推的？是像这样：好的，我们有个粗略计划，在这个日期前要出点东西？还是像——

这是个很好的问题。所以这是从第一性原理思考出发的。如果你想想，人们可能会说第一性原理更适用于物理世界而不是模型。我会说，比如，如果你考虑一些限制，比如获取数据，我们获取视频的速度能有多快？再比如训练模型，端到端训练一个模型的迭代速度是多少？增加更多 GPU 会如何加速这个时间线？还有，如果你需要人工数据，人工数据的交付周期是多久？如果你把这些都放在一起，这就是第一性原理思考：哦，你知道，时间线是什么，实现某件事最少需要多少天？

我觉得这很像 Elon 的思维方式，对吧？他好像有句名言，说你唯一不能打破的法则就是物理定律。大概是这样。总的来说，你和 Elon 合作了很多。

是的，我觉得在 xAI 工作的一个好处就是有机会更多地和 Elon 互动。我很幸运能从他那里得到一些指导，这很有趣。而且他和人们合作非常紧密，就像网上人们想象的那样，他非常亲力亲为。有两件事。

第一，我其实看到过 Elon 转发了你的推文，我找出来。他提到你发推说你的语音模式非常好。我不知道。

我？不，不，不，是他，他，他。哦，我也发过。

我其实，我会私信给你关于语音模式的反馈，因为我觉得，哇，真的很好。然后我又觉得，哦，音质有点差。但，嗯，不知道你想不想聊聊你的语音模式，是怎么构建的？这也是你参与的团队吗？

那其实不是我所在的团队负责的。

是的，因为你可能更多是做——好吧，视频。不，呃，但 Grok Voice 实际上非常好。这是那种，首先，你可以用2倍速说话，这很有趣。是的。因为我听东西是2倍速，所以我也喜欢用2倍速说话。而且，我觉得它的打断功能比 Gemini 好，我不知道现在和 ChatGPT 实时模式比怎么样，但就开车而言，在我的特斯拉里用 Grok，我觉得体验非常好。是的。他喜欢语音模式。

而且还有那疯狂的传播量——

5000万次观看，就只是说了一句："是的，没错。" 是的，没错。

哦，天哪。但它推出得这么快，真的很酷。我想另一个问题是视频模式的安全方面，有什么有趣的点可以聊聊吗？这是个有点尖锐的问题。

很多国家不允许生成式数据、带有水印的生成式AI视频。所以在这些国家，Grok Imagined 都加了水印，而且很多视频被极快地删除。

这其实是运营社交平台的一部分，但也很自然地延伸到生成式AI这边。你对 SynthID 和其他水印技术有什么看法？

嗯，我觉得检测这些东西会越来越难。SynthID 有一个问题，以前只有谷歌在用，现在很多不同的实验室也开始采用它。它的一个局限是，相关技术的论文已经公开，人们可以逆向工程找出如何去除水印。而且我认为，即使技术不断进步，逆向工程仍然可能实现。

所以如果你感兴趣，可以去 Reddit 看看，有人已经找出了谷歌应用的具体——我不知道该叫什么，掩码或模式——然后你可以把它应用到任何谷歌生成的图片上，从而逆向去除 SynthID。

是的。而且光靠肉眼判断也越来越难。我记得几年前，还能看到六根手指之类的明显破绽。

我目前关注的是音频。我觉得音频方面真的很欠缺。我判断某样东西是不是AI生成的方法，除了“我觉得我看得够多了，眼力还行”之外，音频的匹配度，尤其是Sora的，并不好。风格都很相似。但——

我明白了。这些都是小瑕疵。我觉得关键在于，其实我对此最接近的参考也是 Ian Goodfellow，因为他做了对抗性GAN之类的东西，比如，给你一张斑马的图片，然后你改变一个像素，它就变成了熊猫，对吧？这是经典的计算机视觉问题。

如果你想想这些模型是如何训练的，就像我之前提到的，GAN 在训练过程中。GAN 的目标是模型生成一张图像，然后有一个判断器来判断图像是否真实。模型被训练得让图像更真实。所以随着模型越来越先进，判断会越来越难。对我个人来说，现在我必须通过视频是否有逻辑意义来判断。这个视频是否有世界模型。

对对对。不，我也喜欢这个。音频太好听了，像是录音棚品质。光线太好了。皮肤太干净了。你知道，基本上就是缺乏瑕疵。

是的。我们在扩散模型中是否有好的推理方法？这是否就是视频生成器与世界模型的区别？或者，你知道，我们确实知道如何将其应用于自回归语言模型。对于扩散视频生成世界模型，是否有类似的方法？就这一点而言，对吧？

他有一个关于视频智能体的东西。

是的，这是个好问题。实际上，我有一个相当大胆的说法。视觉智能其实主要来自语言。像这些视频模型，尤其是现在，因为扩散模型技术更成熟了，每次你看到这些模型有改进，我敢说大部分改进又来自语言模型，而不是视频模型本身，也就是视频描述模型本身。在 KOSMOS 中，这些模型通常有两个部分。有一个提示重写器或提示上采样器部分。我认为在 KOSMOS 中，我们使用 LLaMA 或 Mixtral，而 Cosmos 视频模型本身只有 7B，语言模型作为提示重写器，比它大得多。所以提示重写器的任务是接收用户指令，并将其转换为极其详细的视频描述。因为视频扩散模型，我会说它们有点“笨”，因为它们会严格按照输入指令执行，因为在训练过程中，记住，我们在创建合成文本对时必须尽可能详细地描述视频。所以这些模型会接收这类指令来生成视频。当你接收用户指令时，用户指令其实很简单。只说“一只猫”之类的。如果你把“一只猫”输入视频模型，它们会严格按照指令执行。它们可能真的只显示一只猫在白色背景上，因为你没有描述背景。猫不会动，因为你没有描述。它非常严格地执行指令，有点笨。而提示重写器实际上是一个更大的模型，它是一个语言模型，接收用户指令并将其扩展。所以你提到的思考过程就来自那里。所以如果你看 GPT-Image，它生成一张图片需要 3 分钟。这 3 分钟不全是像素生成。很多时间花在改进上。所以提示重写现在已经发展到不仅仅是思考，它还可以是一个智能体模型。例如，假设你想生成今天新闻的图片。它很可能会去网上获取今天的新闻，然后处理、消化一些内容，再组织布局并生成。

另一件很有趣的事情是，如果我没记错的话，这些模型不再是扩散模型了，对吧？

它是自回归的，还是仍然有？有不同的方法。例如，像 Gemini Omni，既然它说是 Omni，我相信它是一个单一模型。也许它类似于一个带有扩散头的语言模型，或者语言模型负责思考、进行智能体工具调用，然后最终使用扩散头生成图像。也有像 COSMOS 这样的方法，其中有一个独立的语言模型和独立的扩散模型。还有纯粹的语言模型方法，比如你将图像离散化，然后以离散 token 的形式生成图像。所以有不同的方法。我会说——

我见过一种说法，认为这些方法之所以困难，是因为我们目前学习语言模型推理的很多好处在于，你基本上可以迭代地生成推理，有你的思路，然后基于这个思路得出答案，对吧？所以如果你有一个 Omni 模型加上扩散头，你就无法将输出反馈回去继续推理，对吧？所以你无法做到文本、图像、文本、图像这样的循环。你无法对输出进行推理，然后再回到扩散。但我想在新的 Gemini Omni 中，只要你有扩散，你就能做到。

是的，我不确定他们是否有这个过程。但我认为在 Omni 范式下这绝对是可能的。所以如果你考虑传统的多模态语言模型，它们会有一个 VIT 编码器来编码图像。所以如果它们有一个扩散头，它们可以生成图像，然后将其放回 VIT 编码器。编码后再进行结果的迭代优化。

我认为你必须联合训练 VIT 和扩散，才能让这个过程变得合理，否则你会出现不匹配或输入垃圾信息的情况。

是的。我认为这取决于训练阶段。你也许可以冻结它，但不管怎样，回到你之前说的——

我还想明确指出，我们知道 Nano Banana 和 GPT-Image 是带有扩散头的自回归语言模型。根据你对 Groq Image 的描述，它似乎不是。它是端到端的。我无法对此评论。但我觉得有不同的方法，对吧？你一开始说提示重写器是智能的重要组成部分。

而且说到这个，我觉得每个人都应该试试早期的扩散模型。如果你用过 Stable Diffusion 1 之类的，看过那些提示词，比如超高分辨率、4K、这种风格，天哪，我第一次用的时候，发现你跟它们交流的方式和语言模型完全不同，对吧？你的提示词是用逗号分隔的。

你基本上就是在用数据集里的标签说话，对吧？没错。但我想说的是，提示词写手加图像，和带扩散头的自回归语言模型是两回事，对吧？它们是不同的东西。对，确实不同。

我只是想明确一下。我认为共同的部分是图像部分。所以很令人惊讶的是，很多改进其实来自语言侧——思考、工具调用。我还记得在 KOSMOS 里，我生成一只快乐的羊。如果不做任何改写，它看起来像 CGI 效果，改写之后就很漂亮了。我认为不需要任何联合训练。实际上，不需要联合训练，只靠改写就已经好很多了。我觉得一个很有趣的趋势是，视频智能体（video agents）——主要是语言模型——会把这些生成模型当作工具来调用，不管是独立的模型还是扩散头之类的。这样模型就能通过很长的思维链（chain of thought）迭代优化结果，甚至生成更长的内容。这其实和人类创作艺术的方式很像。我们不是直接生成像素，而是先画点什么，然后通过这个过程，这些模型不仅把扩散当作工具之一，还可以用传统工具、Photoshop 的图像编辑工具、视频编辑器、FFmpeg 等等，把这些和生成式 AI 技术组合成一套工具，迭代地创作出更高质量、达到制作水准的视频。如果你看看现有的专业创作者，他们不会止步于用这些模型生成一个视频，而是会把视频拿到编辑器里修修补补。

后期制作很多。没错。而且有时候，视频好看的原因其实不是视频模型本身，而是剪辑。是的，我们也在做同样的事情。我很想用视频编辑模型。

对，实际上有个 Groq Imagine 智能体测试版，那是这个方向的第一次尝试。所以我认为这个过程会类似——你可以让它——没有相关的博客文章。比如让它生成一个 1 分钟的视频，如果用同样的提示词直接问视频模型是做不到的。但这个模型会调用不同的工具来实现。所以这确实是个有趣的事情。当我们首次发布视频编辑模型时，我在 X 上看到有人尝试视频编辑功能，比如"把这个视频编辑成 1 分钟"，但他们不理解视频编辑的工作原理。视频编辑通常只是删除、添加、替换、风格迁移这类操作。但在视频智能体的假设下，这其实是个合理的请求。这些智能体应该能理解这种长周期任务，从而真正创作出长视频。我觉得这很迷人，因为它走的路径和 AI 辅助编程类似——先是标签补全（tab completion），比如 GitHub Copilot，然后逐渐进化到 Codex 和 Cloud Code，实现全自动化。在 GPT-4 Imagine 模式下，你还可以自己动手操作。随着模型能力提升，它最终能完全自动化地完成所有事情。

对，我喜欢这个。好的，看起来它还在生成。

我还注意到，Midjourney 里的 Grok 一直非常非常快。我不知道你们有没有做过基准测试，但这是个题外话——相比我之前用的 OpenAI 最新的 ImageGen 和 Gemini Nano Banana，我经常因为速度而选择 Groq。

在 Imagine API 的博客文章里有个基准测试，里面有所有速度数据，主要是蒸馏加推理的组合。

对，有很多因素，比如我们讨论过的隔离，还有思考。如果你没有思考预算，模型可以思考 3 分钟再回复你。另外推理方面，推理基础设施团队非常有才华，他们能大幅加速这些模型。是的。

我的意思是，关于视频智能体这件事，我在想当人们说视频智能体时到底指什么。你最初告诉我你对视频智能体的押注或愿景时，我有点失望。我当时想："哦，你是说模型已经到顶了，我们只能做智能体了？"但我觉得确实只能这样，对吧？现在的问题是，模型训练到底能带来多大差异，还是说更好的框架（harness）更重要？就像你说的，模型不需要联合训练。你只需要拿一个现成的前沿推理模型，套上一个框架，把 Grok 当作工具给它用。就这样，这就是你的视频智能体。听起来不太令人满意。显然你可以联合训练来再提升几个百分点的性能。但如果你核心主张是视频或生成式媒体的主要价值实际上来自语言智能，而不是图像扩散或视频扩散，那么未来就是这样的——主要就是等待。

回到刚才的例子，它生成了帧。抱歉打断，但它一直在说"好的，我要开始把这些帧拼接起来了"，它正在用 FFmpeg——

GPT Image Pro 也是这么做的，对吧？它也是在后台写代码，然后拼接，对最终输出做一次图像处理。对于那些只想训练模型的人来说，这感觉不太令人满意。

这很有趣，对吧？也有点令人兴奋。就像你之前提到的，很多提升并不来自视频本身。我觉得在语言模型领域也能看到这一点，对吧？Anthropic 在编程上非常非常强。但多模态不是最好的，对吧？它们有基本的 PDF 输入，但图像、视频、音频处理的质量明显有差距，然而智能水平却是顶级的。其他实验室，比如 Gemini、OpenAI、xAI，你可以添加模态，但并没有解锁什么疯狂的能力，对吧？

所以这很有趣。确实，视频模型能力的提升实际上来自语言模型变得更智能。我认为视频智能体能解锁的东西可能比你想象的更多。有几点。第一点是，当我们给这些模型写提示词时，大多数人其实并不擅长写提示词。实际上，语言模型更懂如何给 AI 模型写提示词。AI 模型更了解 AI 模型。所以如果你联合训练这些模型，模型可能会更懂如何给每个模型写提示词——不同的模型可能不同。另一点是，这个过程可能不只是生成几个片段然后用 FFmpeg 拼起来那么简单。可能还会有更多的图像和视频编辑操作。比如你想在某个时间戳精确地添加一段文字，视频模型可能无法理解这个意图，而且做不到很精确。但这些用确定性工具是可以实现的。视频智能体可以使用各种工具，所以你不需要把所有能力都塞进生成模型本身。对，我觉得这很对。

不，所以在我看来，我觉得你是对的。我认为这会是一个很大的类别。我猜你预测的是接下来一年视频领域会全是这个。

你对这东西什么时候会真正起飞有时间预测吗？

嗯，其实已经开始了。

现在还不够好。不，已经很好了。我觉得最后那个只是更长一些，它没给我一分钟，只给了36秒。但你知道，我们现在能感受到吗？会有拐点吗？你有什么时间线上的预测想说说吗？

我猜到今年年底，这会成为一个大热门。所以拐点会到来，视频agent生成的视频能达到制作级质量，可以用于展示和广告分发。一旦发生这种情况，我认为企业会给视频模型拨更多预算，因为agent本身比视频模型更贵，它们要做迭代过程，生成很多变体。是的，但一旦这些模型跨过可用性门槛，之后就会是指数级增长。

对，我现在不会基于这个去投资一家公司。所以我觉得你是对的。有一件事让我惊讶，我在反思过去一个小时的对话，我觉得你关注的是世界模型和为了生成视频而生成视频。而很多其他做世界模型的人，我们采访过不少，比如General Intuition、李飞飞那些人，还有Moondream——我老说成Moondream，该死——Moondlake。他们很多人其实说机器人是最终目标。具身机器人，要实时、要交互，是为了与物理世界互动。你不太在意这个吗？

我认为机器人肯定会是其中很大一部分。我猜这个过程可能会自然发生。所以我对机器人的预测是，物理AI的问题可能通过视频来解决——它们其实都需要在真实世界中。所以可能被视频解决。LLM如果有很强的视频能力，还记得我们讨论的实时交互长程视频吗？一旦这些模型——现在它们只是在屏幕录制和电脑屏幕上训练——一旦这些模型能很好地使用电脑并理解电脑的未来状态，机器人可能成为强大AI能使用的工具之一。所以强大AI可能自然就能控制物理具身。

我确实看到了这一点。酷。我知道时间快到了。你还留了一个劲爆话题，就是你为什么离开xAI。

对我来说，有很多研究你想做，但在公司里做不了。而且公司的优先级和目标通常变化很快，xAI也一样。所以现在差不多是时候了，有些研究我想做，尤其是语言模型这边，在xAI做不了。哦，好的。

对。你基本上是在离开，经历了从计算机视觉到世界模型、视频生成，现在又聚焦在LLM上。

但看起来，你刚才说聚焦LLM，过去一小时你其实描述了这一切是如何联系在一起的，对吧？是啊，但我不太明白，你说的聚焦LLM具体指什么？

我意识到一个事实，视频模型，即使一开始，进步可能来自扩散技术的改进，但现在这个节点，实际上大部分进步来自语言模型本身。

这对那些整个职业生涯都花在生成式媒体上的人来说是个巨大的打击。我是说，这是个极端的观点，对吧？

你肯定还是需要两者兼顾，对吧？是啊。只是现在语言模型这边似乎有更紧迫、更有影响力的工作要做。

你有什么类似的预测吗？你预测了视频agent，我觉得你会是对的。在语言这边，接下来一年你在关注什么？

我觉得有一件挺有趣的事，可能很快会发生，就是语言模型会具备上下文感知能力并管理自己的上下文。从视频模型这边看，我们一直受长程问题困扰，比如想生成越来越长的视频，我们尝试用各种方法解决上下文长度问题。一种是暴力方法，训练更长的上下文长度；另一种是更好地管理上下文。我认为语言模型这边很快也会发生同样的事。比如，语言模型不知道自己上下文长度是多少。一旦达到80%左右，自动上下文压缩就会被触发，而模型在工作时并不知道这一点。也许让模型知道"哦，我快接近80%了"是件好事。还有一件很有趣的事，比如在OpenClaw里，每次你输入东西，当前本地时间会自动附加到你的消息里，所以模型实际上知道现在几点。这让模型有了时间感知。还有在工具调用中，很多中间工具调用结果会自动修剪。所以有上下文移除、上下文添加和上下文压缩。这些都是来自harness本身。从我们的经验看，启发式工程也会被模型吸收到自身中。我猜这是很有趣的探索方向。

所以是无限上下文？也许吧。不，但这挺有意思的，对吧？

这属于记忆和持续学习的范畴。我不确定。

这也属于agent harness使用的范畴，对吧？

他说他不想在harness里做这个，对吧？

不，不，但模型也在被训练使用harness，对吧？有些东西可以说是隐式地渗透进去了。语言模型的后训练有一部分就是在编码harness中使用，这时子agent什么时候生成？什么时候进行对话？这不是显式的，比如你有一个这么大的token窗口——我不知道你是否希望它这样，因为那会变——但确实有些渗透进去了。

我在想象，如果模型能访问整个agent harness的代码，并能按需修改它，会怎样。比如，如果agent harness足够短，你可以直接把它放在系统提示的上下文窗口里。然后模型说，当我想生成未来的自己时，我可以修改agent harness。例如，如果agent harness可以设定为：当我读长文档时，我可以选择分块读完，回来把摘要拼在一起，或者只读前200行然后丢弃其余部分。所有这些选择，如果都能由模型自己做出，看到模型能在测试时在线编程自己，可能会非常有趣。

对，所以自修改harness也是OpenCLAW和PAI的一部分，但我认为还有很多工作要做。非常酷。我有点好奇，我觉得你是大实验室的一员，对吧？大实验室研究员的职业路径是：你训练模型，获得更多算力，训练更好的模型，然后继续。某种程度上我觉得你是在退出这条路。如果我是你，我会觉得这有点职业风险。你明白我的意思吗？除了你信念非常坚定之外，我没什么可说的。我觉得很多处于你位置的人不会做你做的事。

说到我的职业生涯，回顾起来，其实经历了很多巨大的转变。十年前，我和ResNet的作者张晓宇、陈晨一起做研究。那时候的研究方向完全不同，主要是计算机视觉，比如图像识别、目标检测、目标跟踪。我当时也在做神经网络压缩，和现在的知识蒸馏很不一样。那时我想成为教授，于是申请了博士项目。申请时我已经在顶级会议上发表了几篇第一作者论文，所以自信地申请了顶尖学校。结果我被所有顶尖博士项目拒之门外，只好去了工业界。当时我在Yann LeCun领导的Facebook AI Research（FAIR）工作。

我想聊聊Vijappa，但不太一样。

嗯，我们可以改天再聊。那时我转向了自监督学习，和之前做的东西很不一样。之后是NVIDIA Cosmos。我意识到规模化极其重要，所以在NVIDIA主要专注于规模化。一方面是Cosmos将视频描述模型扩展到几十亿参数，另一方面是研究MoE（混合专家模型）。Megatron MoE是第一个开源框架，能够高效训练千亿甚至万亿参数规模的MoE，MFU（模型浮点利用率）达到40%左右。转到xAI后，我试图在更大的计算规模上更进一步。回顾这条轨迹，我其实做了很多不同的事情。我觉得在机器学习领域，切换方向比想象中容易。很多人可能觉得，我做了计算机视觉就得一直做下去，不能转到语言方向。但根据我的经验，至少在NVIDIA，我既做过语言模型、MoE，也做过视频模型，其实并非如此。很多核心原则，比如如何训练大模型，基本上是相通的。对我来说，现在视频模型的瓶颈其实是语言部分和智能体（agent），这也是我想更多研究OLM的原因。这算是一个挑战，但我不觉得是巨大的跨越。

嗯，向你致敬。我觉得你在视觉方面有很强的见解。这大概就是我们想聊的全部内容了。你非常慷慨地分享了时间，能分享这些真的很棒。我们不需要通过xAI来审核所有内容，而且我觉得也没给你惹麻烦。

相比你从公开信息中看到的，xAI有很多好东西，对吧？你不会意识到它还有多少层次。

xAI，请多办些播客。总之，感谢你的分享，非常友善。我也想多听听你的想法。你即将开启下一阶段，虽然还没公布下一步计划，但显然你在这条路上有更多的愿景和雄心。我觉得你基本上是在梯度下降，走向你的最终形态。

谢谢。我很快会分享更多关于下一章的内容。好的，感谢邀请我。谢谢你来。