Latent Space Podcast

🔬做 Vibe 物理 — Alex Lupsasca，OpenAI

🔬Doing Vibe Physics — Alex Lupsasca, OpenAI

二〇二六年五月六日收听原版播客

摘要

AI for Science podcast 访谈 Vanderbilt 教授、OpenAI fellow Alex Lupsasca。他介绍 GPT-5.2 Pro 和 OpenAI 内部模型参与 theoretical physics：给出并证明 single-minus gluon tree amplitudes 简式，扩展到 graviton case，使用 directed matrix tree theorem；相关论文由 Guevara、Skinner、Strominger 等发表于 arXiv。

好，我觉得我们现在正处在一个特殊时期：至少在某些方向上，AI 已经达到超人水平，至少在某些任务上是这样。也正因为如此，最近有几篇论文解决了一个让该领域物理学家和专家困惑了一年多的问题；他们一直没能解决，而 AI 很快就做到了。所以我认为，我们已经跨过了某个里程碑。很高兴你们关注这件事，因为我觉得，对于街上普通人来说，如果他并不关心 theoretical physics（理论物理），这件事可能并不显眼。但我认为这是一个非常深刻的变化，我们确实已经跨过了某种门槛。

欢迎收听 AI for Science podcast，这是 Lean Space Network 的一部分。我是 Brandon，在 Atomic AI 用 AI 开发 RNA therapeutics。和我一起主持的是 RJ Honnake，Mirroromics 的 CTO 和创始人。很高兴介绍 Alex Lupšoška，Vanderbilt University 教授、OpenAI fellow。作为一位年轻研究者，他的履历相当丰富。除此之外，他还是 2024 New Horizons Breakthrough Prize 的获奖者。这个奖可以说是科学界的奥斯卡。我问 ChatGPT，这是不是他这个职业阶段能获得的最有声望的奖项，它推荐了另一个奖，叫 IUPAP Award，结果他也拿过。总之，他现在在 OpenAI 做得很开心，用 GPT models 推动 theoretical physics 基础方面的一些很酷的研究。

很高兴来到这里。我想传达的一个信息是：我们正在沿着一条轨迹前进，而我个人觉得这非常意外，有点不真实，但也很了不起。大概一年多前，我会说 AI 对写 email 很有用，但还做不了我所做的那类工作，也就是我认为重要的 theoretical physics 计算。我当时想，那是特殊的事情，比写 email 难得多，AI 不可能做到。然后一系列进展接连发生，彻底改变了我的看法。我可以具体讲几个例子。尤其是 ChatGPT-03，它是第一个真正强的 reasoning model，能够做真正的数学，而且对我的研究有用，能为我节省大量时间。那时我开始认真关注它，并更频繁地使用它。我当时想，这真是一个很好的工具。我必须走在前面，学会把它整合进我的 workflow。后来 GPT-5 发布时，它能在大约 30 分钟内复现我一篇最好的论文，而那篇论文我花了很长时间才想出来。那时我真的被 AI 彻底说服了。我想，天哪，这会改变一切。这是我有生之年最重要的发现。它会影响我们做研究的方方面面。坦率地说，我到处跟很多同事讲，说有件很疯狂的事正在发生，要注意。大家反应各不相同，但我觉得他们还没有真正理解。不过我和 OpenAI 聊过，他们也非常兴奋。我想，我对 AI 了解并不多，但我必须参与进去。意识到这件事正在发生却不参与其中，会是一个巨大的错误。所以我必须去 OpenAI。当时我在 sabbatical，来这里加入公司非常容易。之后事情还在继续加速，甚至超过了之前的程度。到了现在，我认为物理学界大多数资深同事都已经意识到事情的发展方向，也都开始参与进来。所以我觉得这是一个很好的故事。

抱歉，我刚才只是想说，我觉得这个故事很有意思，因为它让我想起很多不同的人——如果你看那些从去年秋天某个时候开始对 Codex 有同样认识的人，尤其是后来它突然起飞，很多人都从“这大概能做我 20% 的工作，是个不错的 assistant”，变成了“糟了，刚才发生了什么？”

是的。其实在 8 月，我记得 GPT-5 发布的时候，我已经在非常密切地关注 AI 了。我觉得当时 Twitter 上的反应比较温和。很多人说，我们原本期待更多，它写 email 也没有更好。我记得当时想，好吧，GPT-3 就已经能写 email 了。它写 email 还能好到什么程度？重点不在这里。但在 science frontier 上，能力确实在快速提升。O3 当时也受到了很多关注，但想必 GPT-5 是一次巨大跃升。我认为 5.4 也是一次巨大跃升。我不知道从外部看有多明显，不过我确实听到一些、也看到网上一些讨论，有人在跑这些 independent benchmarks，结果确实显示了这一点。所以我觉得人们正在意识到这一点。而且无论如何，在实际中，研究人员现在已经大量使用 AI。我也一直收到各种 inbound，因为我是 OpenAI 这里做 physics 的 resident scientist。大家都会把论文、chat 发给我，说，天哪，发生了这个。我这周刚收到一个。有人说 Codex 刚刚写出了 SYK model 的 simulation。这是 quantum mechanics 和 gravity 里的一个非常技术性的东西。很多研究组一直在尝试跑这个 simulation，但做不出来。Codex 10 分钟就做了。

只是因为搭建起来太难了吗？

我觉得部分原因在于一个 Venn diagram：一边是有 physics 知识的人，另一边是有顶尖 coding 技能的人，两者的重叠可能并没有那么大，虽然我觉得这个重叠在扩大。但在这个例子里，确实有很多非常优秀、也有 coding 技能的物理学家一直在尝试 simulation 这些东西。所以我认为 Codex 现在就是非常强。

明白。

是的。不错。

好。

所以我觉得我们现在正处在一个特殊时期：至少在某些方向上，AI 已经达到超人水平，至少在某些任务上是这样。也正因为如此，最近有几篇论文——也许我们应该谈谈它们——解决了一个让该领域物理学家和专家困惑了一年多的问题；他们一直没能解决，而 AI 很快就做到了。所以我认为，我们已经跨过了某个里程碑。很高兴你们关注这件事，因为我觉得，对于街上普通人来说，如果他并不关心 theoretical physics，这件事可能并不显眼。但我认为这是一个非常深刻的变化，我们确实已经跨过了某种门槛。

那我们先具体聚焦 gluon 那篇论文和 physics 部分，AI 部分可以之后再谈。好的。

在物理学中，我们认为自然界有两个基本原则，每一条定律、每一个 theory 都应该遵守。其一是相对性原理，它在很高层次上宣告了一条不可违背的绝对定律：信息不能以超过光速的速度传递。另一个原则是量子力学所依据的不确定性原理，它说的是，一切都有一点模糊，比如位置、速度，都存在某种不确定性。所以只从这个描述层次，你就能立刻看到这两个原则之间存在张力：一个是绝对定律，声明你不能超过光速；另一个则说事情有一点模糊。这只是为了说明，当你试图用数学写下这些原则时，方程之间并不真正相容。因此，要提出一种能够同时调和这两个原则、用来描述我们周围物理世界的物理 theory，一直非常困难。我会说，20 世纪物理学的伟大成就，也是我认为人类思想史上最伟大的成就之一，就是发展出了 quantum field theory（量子场论）这一框架。它是一个通用框架，能够以同时容纳这两个原则的方式描述自然界的物理力。在 quantum field theory 中，也就是我们今天最好的 theory 里，细节当然会变得有点技术化，但我还是尽量保持在高层次。你想计算或描述的是某些事件发生的概率。因为你处在量子力学的设定中，当进行某个实验时，你无法确定地说会发生什么。但你想预测概率分布。在量子力学中，概率分布是通过对某些复数量取平方得到的。这里说的“复”不是复杂的意思，而是说它们不是实数；它们是由实部加虚部组成的数，我们称之为 quantum amplitudes。所以一个 theory 的目标，就是预测 quantum amplitudes，也就是这些复对象；它们取平方后给出量子概率。而这就是你对于一个实验结果所能说出的最多内容。在这些 quantum amplitudes 中，有一类叫作 scattering amplitudes，它们描述的是下面这种情形：假设你有一堆粒子，把它们彼此相撞。这就是日内瓦 CERN 的 LHC 这样的粒子对撞机里发生的事情。你取一堆粒子，把它们撞在一起，随后发生一些事情；它们通过自然界的物理定律相互作用，各种过程发生，最后在相互作用结束时，有其他粒子作为结果飞出来。scattering amplitude 就是描述某一种特定相互作用概率的对象。也就是说，有一些带着某些能量和动量进入的粒子，以及另一些带着其他能量和动量出来的粒子。因此，这些 scattering amplitudes 是一些函数，变量包括描述入射粒子和出射粒子的全部数据。一般来说，一次相互作用中可以涉及任意多个粒子。这也是 quantum field theory 的标志之一：粒子可以被湮灭，所以最后的粒子数不一定和开始时相同；粒子也可以被产生，很多事情都可能发生。一般来说，你想描述所有可能性。因此，你想要一个适用于任意粒子数 n 的 amplitude。这称为 n-point amplitude，因为一共有 n 个进出粒子。结果表明，在 quantum field theory 中，如果你有某一种特定的力，并且能够计算 n-point amplitudes，也就是这些函数，以及这些函数中平方后给出概率的参数，那么你大体上就知道了这个 theory 的一切。当然总会有一个星号，但基本上这就是这个 theory 的全部内容。

所以，如果你有一个 theory，能够告诉你任意数量的粒子如何进入、如何出来，那么我就可以说，我能够断言关于这个系统的一切。没错。

那你就知道了一切。重要的是，这些 amplitudes 不只是数字。它们是函数，因为它们计算出的概率取决于粒子有多少能量、动量是多少。而且粒子还有一种东西叫作——很多粒子都有，比如 photon，也就是光的粒子，有 polarization。你看湖面时，如果戴着偏振太阳镜并转动头部，就会看到湖面反射的阳光变多或变少。这是因为 photon 可以被看作一个小小的光粒子，它在传播时会携带一个垂直于传播方向的小箭头，这个箭头称为 polarization。这个 polarization 有方向，而太阳镜可以选择性地让某一种 polarization 的光通过，而阻挡另一种。实际上，光在传播时，这个 polarization 可以旋转、可以缠绕，也可以有自己的变化。一般来说，如果它以右手方式缠绕——也就是说，粒子传播时，如果 polarization 向右缠绕，我们就称之为正 helicity，或者右手 polarization。如果它向另一个方向缠绕，我们就称之为左手 helicity，或者负 helicity。因此，一般来说，这些 amplitudes 作为 quantum field theory 中的基本对象，应该包含关于物理力的全部信息。它们不仅依赖能量和动量，也依赖 polarization。前面我讲了自然界有两个基本原则：相对论和量子力学。它们在 quantum field theory 这个框架中结合在一起。而我一直在谈论“力”。自然界有四种基本力。第一种是 electromagnetism，它基本上决定了原子元素和元素周期表的性质，因此也决定了化学和生物学。你所看见、触摸、感受到的几乎一切，比如质地、颜色，基本都源于 electromagnetism。这种力由 photon 传递，也就是光的粒子。它是我们最熟悉的一种力。然后是 gravity，这是另一种我们非常能感受到的力，因为它把我们留在地面上。还有两种核力：weak nuclear force 和 strong nuclear force，我们在日常生活中并不会直接注意到它们。weak nuclear force 负责放射性衰变以及类似过程。strong force 是所有力中最强的，它把原子核束缚在一起。高中时你会学到，同种电荷相斥；那么，如果是这样，为什么质子会黏在一起？在原子核内部，它们本应该相互排斥。事实上也确实如此。但如果你把它们拉得非常近，strong force 就会起作用，并压过相对较弱的 electromagnetic force。strong force 是通过交换 strong force 的粒子来传递的，这些粒子称为 gluons，因为它们把原子核“粘”在一起。所以 gluons 是 strong force 的粒子，而 gravity 则由 gravitons 传递。

我觉得 Gluon 那篇论文也许算是这个方向的起点，也许不是。但 Gluon 那篇论文确实有一个非常具体的结果，对吧？

对，当然可以。也许我先把论文展示一下。我们大概一个多月前把它放到了 arXiv 上，这就是论文。前面铺垫了不少，我现在用几句话解释一下标题的意思。标题是“Single Minus Gluon Tree Amplitudes Are Nonzero”。这听起来可能有点吓人，但我觉得可以给听众拆开讲。gluons 是传递强相互作用的粒子，gluon amplitudes 是描述 gluons 通过强相互作用发生相互作用的量子概率的函数。这里的 tree 有一点技术性，意思是我们只考虑没有 gluons 被产生或湮灭的过程。如果有 gluons 被产生或湮灭，就会出现 loops，这个我们之后可以解释。但这只是一个技术细节。所以我们考虑的是一种特殊相互作用：进来的 gluons 和出去的 gluons 是同一批。

对任何做过 polynomial 拟合的人来说，可以把 trees 想成类似 linear term，而 loops 可以看成 higher order terms。

对，正是这样。

实际上要复杂得多，但在概念上，它有点像一个级数里的最低阶。

然后是 single minus——这个也得解释一下。还记得我之前说过粒子有 polarizations 吗？研究 gluon amplitudes 本身几乎就是物理学里的一个完整产业。这是一个非常复杂的领域，几十年来人们写了成千上万篇论文。所以你总是想先理解最简单的例子。这就是为什么要从 tree amplitude 开始，也就是 leading effects，然后再去考虑 loop corrections。你可能会以为，最简单的例子是所有粒子都有相同 helicity 的情况。比如它们全是右手的，或者说全是 plus helicity 粒子。很久以来人们就知道，在这种情况下 amplitude 实际上就是 0，这意味着这种相互作用被禁止，不能发生。这是一种说法——

就是 symmetry 明确禁止了它。

是——

所以你甚至不用计算，直接就知道。

对，只要 dimensional analysis 就可以。对，这是一个非常一般的论证。不需要做太多工作。所以没错，它确实是最简单的例子，但简单到什么都不会发生。答案是 trivial。那你可能会问，下一层是什么？如果——

我想弄明白这一点。你有一堆 gluons，它们进入一次相互作用。

对。

它们都处在同一种——

helicity。

对。然后你是在说那就是不可能发生。

对。

比如我拿着我的 gluon 枪发射，他也拿着他的 gluon 枪发射，它们过去之后，这事就是不会发生。

它们会直接穿过去。

哦，所以它们就是不会相互作用。

它们不会相互作用。对。

明白。

对。

对，这是个很好的澄清。然后你可能会问，如果其中一个有相反的 helicity，但其他所有都是 plus helicity，只有一个是 minus helicity，会怎样？这就是我们所说的 single minus amplitude。如果你去看相关的 lecture notes 和 textbooks，会发现那个排除 all plus amplitudes 的同一个论证，看起来也会排除 single minus amplitude。它们太简单了，无法真正相互作用。这里没什么可看的，可以跳过。于是你可能会继续问，好，那再往下一步呢？如果有两个粒子是 minus helicity，其他都是 plus helicity 呢？如果一共有 n 个粒子，那就是 n minus 2 个粒子具有 positive helicity。这些就叫 double minus amplitudes。20 世纪 80 年代，人们研究并计算了这些 amplitudes。它们不是 0。特别是有两位物理学家 Park 和 Taylor 发现了一个漂亮的结果。他们做了很多非常艰难的工作，计算这些 amplitudes，那是非常技术性、很困难的计算。但最后你得到很多项，必须把它们全部加起来，结果几乎所有项都会相互抵消。最后只剩下一个非常简单的公式，半行就能写下，现在被称为这些 amplitudes 的 Park-Taylor formula。这些 amplitudes 现在被称为 MHV amplitudes，代表 maximally helicity-violating，因为它们具有 plus 和 minus helicity 粒子之间最大——或者说我们当时以为是最大——可能的不对称性，也就是最强的不对称。现在说回上个月出来的这篇论文。这篇论文的作者包括 Alfredo Guevara，他是 Institute for Advanced Study 的 postdoc；David Skinner，Cambridge University 的教授；Andrew Strominger，Harvard 的教授，也是我以前的导师；还有 Kevin Weil，他过去曾经研究过粒子物理。那么这是怎么发生的？也许我们之后会谈到我是怎么来到 OpenAI 的，但我后来到了 OpenAI，开始提升模型做物理的能力。模型在物理方面变得非常非常强，于是我想，好，现在已经这么强了，我们应该试着解决一些真正处在前沿的研究问题。我给以前的导师 Andy 打电话，说，Andy，你愿不愿意来 SF，访问 OpenAI，我们可以试着解决你的一个物理问题？我当时想，这大概率不会成功，但如果不成功，至少我们会弄清楚为什么不成功。我可以每个月找一位不同的物理学家做这件事，最终总会有一次成功。与此同时，我们还能学到如何改进模型，所以这既有趣也有用。Andy 是我邀请来做这件事的第一个人。他说，我正好有一个很合适的问题，过去一年我一直在和 Alfredo、David 思考这个问题。我现在解释一下这个问题，但有意思的是，在 Andy 计划到来之前稍早一点，也就是前一周，我们就决定开始用 AI 来研究它。事实上，我们用 ChatGPT 解决了这个问题。甚至在他下飞机之前就解决了，这让他非常意外。

对他来说。

对，我想，对我来说也是，说实话，我也没预料到。这是个很有意思的故事。Andy、David 和 Alfredo 一年前就明白，single minus amplitudes 为 0 这个说法并不完全正确，因为 lecture notes 和 textbooks 里的通常论证有一个 loophole。这个 loophole 在于，它假设粒子来自 generic directions。但在某个特定 regime 中，如果粒子彼此精确对齐，我们说它们是 collinear，那么通常的论证就有一个 loophole，amplitudes 就有可能不是 0。那如果它们不是 0，它们到底是什么？于是这些过去被认为是 0 的非常简单的 amplitudes，如果不是 0，我们就应该计算它们，而且它们应该会是某种非常好、非常简单、非常特殊的东西。这里我省略了很多细节。它必须在某种不同 signature 的 spacetime 中成立。它还和他们一直关心的很多其他问题有关。这里我们先不展开。

我其实本来还希望最后能谈谈，在空间有两个维度、时间有两个维度时到底意味着什么。不过是的，我觉得其中一部分是可以讲清楚的。这个 loophole 一方面和粒子的 alignment 有关，但它也是一个关于物理中的 spacetime、关于我们所处宇宙的 loophole。

这确实是很难直观把握的内容。于是他们意识到这些量并不是零，并开始计算它们。我觉得 Alfredo 真的是这个故事里不常被提到的关键人物，因为他做了大量非常困难的手算工作来计算这些东西。我给你看一个例子。在论文里有很多 formalism（形式体系）。这里是一般答案定义的开头。是的，很难拆解，但它从这里开始。然后你必须定义这些 vertices（顶点）、对象 V，它们很复杂，涉及 spinors（旋量）的 sine 和 theta functions，然后还有这个 recursive formula（递归公式）。总之，是一团复杂的东西。具体来说，如果你试着展开这个定义，要记得这些 amplitudes（振幅）是关于参与粒子数量的函数。所以有一个 3-point amplitude，也就是相互作用里只有 3 个 gluon（胶子）。这个答案相当简单，就是我们这里定义的某个函数，并不太复杂。然后这是 4-point amplitude，现在有 4 个粒子。你可以看到，我们从一项变成了这里两项的和。但到了 5 个粒子，就开始出现更多项，这里有 8 项相加。等到 6 个粒子时，它就直接爆炸了。

对于没有在 YouTube 上观看、只是收听的人来说，这个方程占了页面的四分之一，有 32 项，每一项都是一个乘积，由 4 个因子构成，而每个因子本身又封装了一个相当复杂的公式。

是的。所以这非常糟糕。而 Alfredo，或者说其他任何人，也就算到这里为止了。

所以 Alfredo 做的是……这只是某种展开吗？做这个展开到底有多难？

非常难。是的。其实有一种很好的图形方式可以用 Feynman diagrams（费曼图）来理解它。我本来没打算解释这个，不过这里有一个视觉化的角度，而这个主题本身也相当适合用图像来理解。数学非常复杂，早在 40 年代，Richard Feynman 作为 quantum field theory（量子场论）的先驱之一，就提出了一种非常直观的方式来组织我们对这个主题的理解。你可以随手画一些小漫画，表示可能发生的相互作用。量子力学的规则实际上说，在这些把一堆粒子散射出去的 amplitudes 里，你可以固定什么粒子进来、什么粒子出去，因为这正是你要问的问题：某个相互作用发生的概率是多少？但中间发生的一切，你不能选择，因为物理定律决定了会发生什么。实际上在量子力学里，你应该考虑所有可能性，也就是所有入射粒子相互作用并转变为出射粒子的方式。然后你要对所有可能性求平均或求和，得到这个过程的最终 amplitude，也就是把每一种可能路径对应的 amplitude 加总起来。

我确认一下：有一些入射粒子，它们发生相互作用，然后有所有这些不同的可能性。每一种都有自己的 amplitudes。然后好像是我为这个粒子选一种可能性，为那个粒子也选一种可能性，于是得到一种可能的相互作用；而每一种又有无限多个可能，然后我把这些无限可能全都加起来，得到输出。

是的，原则上有无限多幅图需要相加，但这也是为什么我们要按复杂程度来组织它们。事实证明，每当发生一次相互作用，每当有一个线条相交的 vertex，那个点相互作用就会带来 coupling constant（耦合常数）的一个幂，而 coupling constant 控制相互作用的强度。结果是，每增加一次相互作用，amplitude 都会受到更强的抑制，也就是说，它对最终答案的贡献更小。因此你首先要考虑相互作用次数尽可能少的 diagrams，因为它们会给出最终总 amplitude 的主要部分。然后如果你想得到越来越精细的答案，就再考虑越来越复杂、包含越来越多相互作用的小漫画。实际上，diagrams 变复杂的一种方式就是它们可以有 loops（圈）。比如这里有一个粒子衰变成两个粒子，形成了这个 loop，因为它们随后又汇合并消失。所以在这个相互作用中，有中间粒子被产生又被湮灭。但每当这种事发生时，你的图里就会多出两个 vertices。因此这些 diagrams 是受抑制的，因为出现这些额外“恰好”的相互作用的概率更低。所以你不需要太担心它们，它们就像一个小修正。当然原则上你可以一直算下去，但你永远不会真正算完，除非是在非常特殊的情形下。

就像多项式里的高阶幂，或者 Taylor series（泰勒级数）之类的。

回到 80 年代 MHV amplitudes 的故事，我觉得现在这个叫法有点误导，我会把它们叫作 double minus amplitude，因为我们马上会说到这里。那是一项很了不起的计算，里面加总了大量 Feynman diagrams，他们考虑越来越多粒子、越来越多相互作用。每次都会出现越来越多项，但它们最后都会相互抵消，总是给出一个简单答案。实际上，这就是这个 PT 项的含义，PT 代表 Park-Taylor。这些公式基本上一行就能写下，所以并不复杂；但令人意外的是，这么杂乱的计算最终竟然会整理成这么简单的结果。所以 Alfredo、Andy 和 David 所做的，是理解这些 single minus amplitudes 在某些粒子对齐的特殊情况下并不一定为零。然后你可以做这个非常复杂的 Feynman diagram 展开来得到答案，而答案不是零。但问题在于，如果你这样做，你当然可以用某种极其糟糕、极其杂乱复杂的方式表示答案；可一旦展开，它就非常复杂。它在以下意义上是复杂的：当你考虑 n-point amplitude，也就是 n 个粒子相互作用的概率时，答案中的项数大致对应你必须加起来的 diagrams 数量，而这个数量会随着粒子数 n 呈 factorial（阶乘）增长。阶乘增长非常糟糕，是超指数的，比指数增长还快，所以会直接爆炸。你在这里看到的就是这种情况。粗略地说，这是因为你必须画出所有可能的小漫画，而可能组合本身是一个组合学问题，factorial 行为就来自这里。但我们从 80 年代就知道，在实际上更复杂的 double minus 情况下，Park 和 Taylor 找到了这种近乎奇迹般的简化。所以 Andy、Alfredo 和 David 过去一年一直在追寻 Park-Taylor formula 的 analog（类似物）：也就是 80 年代为 double minus amplitudes 得到的那个非常简单的答案，但现在对象是这些 single minus amplitudes。他们已经理解它们不是零，但问题是它们到底是什么？他们得到的是一个非常复杂的答案。物理里你事先并不知道某个东西会不会简化，你必须相信它会简化，才可能找到这个简化。因为 double minus 的那些会简化，所以直觉上这些也应该会简化。而且我们认为它们对很多事情都很重要，某种意义上是非常 fundamental（基础）的对象。因此它们应该有一个好的描述。于是他们花了一年时间寻找它。

有个挺有意思的地方，如果你往下滚，下一行大概写着：“我们需要一个更简单的公式。”

对。我们写论文的时候，确实需要一个更简洁的公式。

是需要的。对。

需要一个更简洁的公式。这就是 AI 发挥作用的地方。因为当我问 Andy：“你手头有没有一个问题，适合用 AI 来攻关？”他说：“正好有一个特别适合你的。我们一直被它困住。它非常重要，也很有意思，还和很多东西相关，但我们不知道答案。”

对。我读研究生的时候，如果遇到这种问题，大概会把它丢进 computer algebra system（计算机代数系统）里，让它慢慢算，试几个极限情形，看看会不会出现什么像魔法一样的化简。这类东西你经常会看到，然后心想：我们需要换一种方法。

没错。然后在 Eddie 来之前，我们就开始试 ChatGPT。Alfredo、Andy 和我都在尝试不同做法。很多对话来回进行，David 也参与了。最开始发生的事情是，我们把 5-point amplitude 输入给 ChatGPT，问它：“你能化简这个吗？”它说：“这里有一个特殊区域。你可以加一个额外假设，在这个假设下，答案会化简成这个形式。”

这个假设等价于：有一个粒子进入，然后衰变成 n minus 1 个其他粒子。可以这样理解。

大致可以这么想。

好。但我们是在两个时间维度里，所以……

对，这很复杂。但基本上，你可以看我们所说的 phase space。它是所有入射粒子的能量和动量的全部可能性的空间。在这个 phase space 里有一个特殊区域，其中一个粒子的频率符号和其他粒子不同。在这个区域里，会发生一个很大的化简，而 ChatGPT 找到了它。我要说明一下，这是公开模型，但用的是会深度思考的 pro 版本。那这是一个已知事实，只是它能把它关联到这个问题上，还是它自己拼出来的？就我所知，是它自己拼出来的。它说，这个 5-point function 是 8 项之和，每一项又是 3 个因子的乘积，每一项都相当复杂。它说：“其实这个可以化简成只有 3 个因子的乘积。”我们盯着它看，觉得这真的很好。我们以前不知道这一点。事后看，一旦你知道了，确实可以重新推导出来，但要理解它从哪里来需要花些时间。所以我认为这是 AI 的一次洞察跃迁。它做了什么呢？我记得某个时候它说：“我写了一段 Python 代码，把 5,000 种可能性都跑了一遍，然后我——好，我推导出了这个。”所以这相当于运行他的 computer algebra system，但它是自己决定这样做的，并且得到了一个巨大的化简。

很好。

很棒。

这是在作出那个假设之后吗？也就是那个 k、一个粒子衰变的假设之后？

对。它作出了这个判断。这里有很多来回交流，非常实验性，但我们讨论了很多。它发现存在某个区域，在那里表达式会化简；在那个区域里，它说：“好，这个东西可以化简成……”GPT 也给出了 amplitude 的那个化简。对，对。然后我们说：“好，那把 6-point function 给它试试。”这是 Alfredo 很艰难地算出来的。至于 7-point function，我们没有。我觉得没人能用那个恒等式把它展开，那会很难看。然后 ChatGPT 做了它那套小操作，接着说：“好了，确实，可以化简成这个。”我们当时想：“哇，好。”这确实很好，因为现在它不是 32 项，而是化成了 4 项。并且它不是 32 项的和，而是只有 4 个因子的乘积。然后我们问 ChatGPT：“好，那你能猜出任意 n 的一般公式吗？”顺便说一句，这一步你可以想象用某种编程语言或 symbolic manipulation software，在一些具体例子里做这些化简；但要处理一般情形，我不知道怎么用计算机来做。但 ChatGPT 说：“可以，一般情形下答案就是这个。”就这样。

这花了多久？

用 Pro 的话，它一次会思考 20 分钟。你来回几轮——

但不是 6 天那种吧？

不是，不是。就是经过几次交互完成的。很有意思的是，它提出的公式没有那种 factorial growth，也就是项数随着粒子数 n 增加而超指数爆炸。这里实际上是线性的。所以如果粒子数翻倍，项数也只是翻倍。这是你能想象到的最好行为。我认为这相当于 80 年代已知的 double minus amplitudes 的 Park-Taylor formula，但现在是针对 single minus amplitudes。这是 GPT 猜出来的，我记得当时是 5.2，GPT-5.2 Pro。但它还没法真正推导出来。

所以它说：“看起来像这样，但我不知道怎么证明。”

对，我觉得那个模型还不够强，证明不了。不过我在 OpenAI 的一部分工作，就是增强模型的物理能力。很多人也加入了大量工作，这不只是我个人的贡献。有很多优秀研究在进行，最后汇聚到一起。需要很多人的共同努力。我们有一个内部模型，可以思考很长时间，而且在物理上特别强。所以我们从头把整个问题给它，没有把这个公式给它。我们只是非常清晰地表述了问题，并让模型在这个区域里求解一般情形下的 amplitude，因为我们已经识别出这是值得关注的特殊区域。它花了 12 小时，这很长，但它返回了同一个公式，而我们没有把这个公式给它。所以它重新发现了正确公式，而且这一次它还找到了证明，证明这个公式是正确的。它把公式推导出来了。事实上，论文在陈述方程之后，剩下的部分就是证明，而这个证明基本上来自 AI。我们在文中说，接下来的工作用于证明这个 conjecture 是正确的。分 3 步：第一，证明这个；第二，证明某某；第三，证明某某。然后这基本上就是 AI 给出的内容。现在我终于可以总结这篇论文了。标题是 Single Minus Gluon Tree Amplitudes Are Nonzero。也就是说，这些 gluon 之间的特殊相互作用，其中只有一个 gluon 的 helicity 和其他 gluon 不同；过去人们认为这种相互作用永远不会发生，但实际上这些相互作用可以发生。所以 amplitudes 是非零的。这是论文的主要主张。我认为这相当出人意料，也是一篇很好的论文。最终结果我想有两个。一个是理解它不是零。这是人类大约一年前得到的，但他们一直非常努力地想找到 amplitude 的简单答案。他们被困了一年左右。通过 Feynman diagrams，他们能够得到一个极其复杂的间接表示，但他们想找到一个简单公式，类似于 80 年代 Park-Taylor 工作对更复杂 amplitudes 所做的那种结果。而这一步是借助 AI 完成的。所以我认为这是一个很有意思的结果。

对，很了不起。

这会完全改变你对物理学当前处境以及 AI 将如何改变它的理解。它不只是炒作。我的意思是，这是真实发生过的事情。这个结果是该领域顶尖研究者思考了一年都在研究的问题，然后 AI 解决了它。

我觉得这件事很有意思。关于这个故事，有几件事我觉得 Twitter 上很多人没有理解。你可以往下滚到大概 equation 38，或者 35 到 38。对。我的意思是，大多数哪怕是刚入门的研究生看到 35 到 38，都会说 39 其实是一个很自然的延伸。也就是说，我不觉得这有那么令人意外。我觉得有意思的是，我刚才才知道，你在证明 39 的时候，是一个全新的 session，没有使用那些 limiting cases。你是从头开始的。

是的。为什么要那样做？因为我想这是增加对答案信心的一种额外方式。如果一个不同的 model 独立地从头得到它，那么你就不是在把你认为正确的答案直接喂给它。这是额外的确认。不过，我们确实仔细想过该如何把这件事公开出去，而这件事没有完美的做法。显然，我们本可以把沟通做得更好。对我们来说很重要的一点是，不要让这篇 paper 变成一篇关于 AI 的 paper，因为我认为这是一个很有意思的物理学结果。我希望人们在很长时间里都会继续读这篇 paper。我们没有在 abstract 里写 AI，因为这是一个可以独立成立的物理学结果。文中真正关于 AI 的只有一段，我们只是说最终公式最初是由 GPT-5.2 Pro conjecture 出来的，随后由一个 OpenAI 内部 model 证明，因为事实就是这样。这是真的，但我们并不想展开讲，因为我认为这不是这篇 paper 的重点。它是怎么发生的确实很有意思，但结果本身是独立成立的。想象一下，如果你今天读一篇 20 年前写的 paper，其中用计算机完成了论证中的某个关键步骤。然后它花很多篇幅讨论，比如我启动了 MS-DOS 3.1，它有 5 张 floppy disk，我还得换 floppy disk。你不会在意这些。你今天读这篇物理 paper，并不是为了这些。所以我们并不想在 paper 里展开。我们在和 OpenAI 一起发布的 blog post 里稍微谈了一点，就是这篇。然后 Twitter 上有很多问题，我写了一些 tweets，我觉得把情况澄清了一些。还有一位物理学家写了一篇很好的 blog post，是真正理解了这个故事。The Economist 也发了一篇很好的文章，他们确实理解了发生了什么，我觉得报道非常好。Science magazine 也写了这件事。Harvard 和 Institute for Advanced Study 发了 press release。所以我认为它得到了很多关注，但这件事解释起来有点微妙。我们花了一个小时才讲清楚发生了什么、做了什么。所以这很难解释。我觉得如果在 paper 里展开这些，会有点偏离这篇 paper 的物理学重点。

好，我们来谈谈物理本身，也请你帮我们把它放到一个位置上。因为我对前沿理论物理的了解主要来自 PBS Space Time，对吧？那是个很好的频道。

是的。

很棒的频道。它能给你很好的高层次图景。但很难知道这篇 paper 在代表理论物理前沿的那些 paper 中处在什么位置。

你是在问我这篇 paper 有多好吗？

不完全是。我只是想理解一下。听起来你是在把它和之前一个相当重要的结果比较，那个结果引用很高，也非常重要。这个结果和那个相比怎么样？

好吧，你把我放在一个有点难回答的位置上。我会说，我认为这个结果是出人意料的。这也是标题为什么这样写：single minus amplitudes are nonzero。如果你是这个领域的人，这个标题应该会引起你的注意。归根结底，在科学中，当你把一个结果发布出去时，很难知道它会如何被接受、会有多大影响。我认为一篇 paper 的真正价值只能在 10 年后，根据它引出了多少后续工作、打开了哪些发展方向来评估。

那也许更好的问法是，我的理解是，之前那篇 paper 开启了一整套思路——

对，我觉得这正好可以引出 3 周后发布的第二篇 paper。很好。那我们来谈谈它。它也有自己的 blog post。这是 3 月 4 日，所以现在大概是 2 周前。我们前面讲到有 4 种力。强相互作用由 gluons 介导，而 gravity 由 gravitons 介导。不同的是，gluons 可以在 LHC 中产生，我们可以相当直接地测量它们的效应。我们认为 gravitons 也存在于我们周围，并且一直在产生，甚至我移动双手时也会产生，但我们从未做过直接测量 gravitons 的实验。不过，它们被认为是 gravity 的 quantum。所以从理论角度看，它们非常有意思。

回到 RJ 刚才的问题，gravitons 到底是什么？

可以有不同的回答。最终，正确答案取决于 quantum gravity 的理论，而我们目前还不知道这个理论。

是的。如果你只是天真地把我们从 Standard Model 的 field theory 里知道的所有技巧都拿来用到 gravity 上，事情就会崩掉。这个理论在某种定义下不是自洽的。

会有各种问题。对。就像这个房间里有光在流动。光有某种不可再分的最小单位，到了某一点你不能再把它拆成更小的部分。那就是光的 quantum。我们称它为 photon。而 gravitational force 是通过 gravitational force 或 gravitational waves 的交换来介导的。如果你试图把一个 gravitational wave 拆成越来越小的部分，到某一点你会得到一个不能再拆分的 quantum，那就是 graviton。这就是我们对它们的理解。

好，所以这里的想法是，你会到达某个点，不能再有比这更少的 gravity。要么有一些，要么没有，对吗？

可以这么理解。是的。所以我们写了这篇 paper，题为 Single Minus Graviton Tree Amplitudes Are Nonzero。标题几乎一样，只是把 gluon 换成了 graviton。这是有意为之，因为我们想扩展这个结果。故事在某种意义上是一样的：之前人们认为所有 single minus amplitudes 都是 zero，但实际上并不是这样；对 gravity 也是如此。但 gravity 要复杂得多。所以如果你现在想计算 graviton amplitudes，可能会难很多。

Gravitons 也像 gluons 一样有 phase 吗？

是这个意思吗？它们实际上是 spin 2，而不是 spin 1。这里有点深入细节了。所以用来描述它们的那些数字会稍微不同。某种意义上是加倍的。

明白。

所以它们的 polarization 更复杂。我明白了。这确实已经进入细节了，但最终答案会简化的那个特殊区域有两个标签，因为它是 spin-2 particle；而在 gluon 的情形中只有一个标签，因为它是 spin-1 particle。所以这就像是——它不是同一套数学。

与其他类型的 particles 相比，gluons 和 gravitons 确实有一些精神上的相似性。比如说——

它们都是力的 particles。

是的。但它们好像是成对出现的。

对，它们有点像成对出现。

对。

对。我的意思是，好吧，我想看这个播客的人大概会喜欢深入研究这些。所以，在 quantum field theory（量子场论）里，particle 的现代定义是：particle 是 Poincaré group 的 irreducible representation（不可约表示）。而 quantum field theory 是我们目前经过最充分验证的自然框架。

我们刚刚失去了 90% 的观众。是的。

好吧，也许我们可以把这段剪掉。这里有一些数学 representation，而且它们已经全部被分类了。所有可能性其实都由一位伟大的物理学家 Wigner 给出了。结果是，这些 representation，也就是可能的 particle，可以完全由 particle 的 mass、spin 和 charge 来标记。所以这是三个 quantum numbers。像 gravity 和 electromagnetism 这样的 long-range forces，其对应的 particles 的 mass 是零。它们必须有 integer spin，其中 spin 1 对应四种力中的三种，spin 2 对应 gravity，然后就这些。不过先把这个放一边。这篇 paper 真正有意思的地方是，首先，它是在第一篇之后 3 周发表的，这非常快。我认为这是 AI 加速科学的一个很好的例子。事实上，我们本来可以在第一篇之后 3 天就把这篇 paper 发出来，因为我们就是这么快从 ChatGPT 得到了答案。但我们花了 3 周，因为我们想非常仔细地检查它是否正确。大部分时间其实花在验证答案上，而不是写作上，这其实很不可思议。退一步想，如果一年前你告诉我，会有一个 AI 能替你做非常难的计算，然后大部分人类工作会变成验证它的答案，我会觉得你疯了。所以这很不真实。然后我们还得把它写成一篇像样的 paper，加入 citations 和 references，这也需要一些时间。中间我还生了孩子，所以也损失了一些时间，但我们确实做得非常快。所以我认为这是 accelerated science 的一个例子。另一个很有意思的点是，对这篇 paper，我们不需要使用一个必须思考好几个小时的 OpenAI 内部模型。全部都是用公开可用的 GPT Pro 完成的。事实上，我们分享了使用过的一个主要 prompt。你如果去看那篇 blog post，标题是 Extending Single Minus Amplitudes to Gravitons，往下滚到正文，会看到一个我们使用过的 chat 链接。所以你可以看到我们用的是 ChatGPT 5.2 Pro。这里最有意思的是，我们把那篇 gluon paper 作为 seed 给它，然后说，阅读并理解这篇 paper。确保你理解 appendices 里的推导，因为大部分困难工作都在那里。然后它回来回答说，是的，我理解了这篇 paper。让我重点看 appendices。这里发生了什么。基本结论是，GPT Pro 以那篇 Gluon paper 为 anchor，能够完成 Graviton calculation。这个计算在数学上非常不同，而且完全是它自己完成的。好吧，也不能说是从零开始，是从那一篇 paper 出发，但它确实是另一件事，而它足够强，可以完整做出来。

所以它从前一篇 paper 里完成了 conceptual leap，然后说，好，我需要什么数学工具来实现同一个概念？

而且是不同的数学。这一点很重要。具体来说，它关键地使用了一个叫 directed matrix tree theorem 的东西。Alfredo 和 David 已经思考这些问题很久了，他们的反应是，哦，这很有意思，也很出人意料。我们以前没有想到过，也没有见过。

那是已知的数学，但也许因为它对数学和物理有很广泛的理解，所以它能说，哦，这就是在这个情况下适合应用的东西。

对，正是这样。所以这里它理解了那篇 gluon paper，然后我们说，好，任务是把这篇 paper generalize 到 gravity case。这里有两个关键变化，但除此之外，推导应该相似。我们一开始调整了一些东西，然后说，祝你好运，你是一位出色的 theoretical physicist。也就是说，我们给了它两段话。我们给它那篇 Gluon paper，加上几段说明，然后说，祝你好运。它思考了 20 分钟，然后就开始了。它从开头出发，推导各种 implications，全都很有意思。然后它说，这是我接下来会做的，用来把它变成 gravity paper。如果你愿意，我可以做某某。于是我们说，好，继续。

然后它又思考了 31 分钟。

思考了 31 分钟。对，这段交流有 110 页，但我觉得很有意思。我会把这称为 vibe physics，因为你能看到它离开一会儿，做了很多艰苦工作，写了大量 equations。它开始做这些事：好，现在你必须使用不同的数学，必须使用 tree calculations、LSZ reduction formulas。好，发生了很多事情。sum-over trees、具体检查。它开始做，对，这也是我喜欢的一点：它能做人类会做的同样事情，比如检查一些基本 case、做 sanity check、建立 intuition。所以它每隔 3 分钟回来一次，说，完成完整 Gravity paper 还剩这些内容。然后列出一个清单。如果你愿意，我可以写出 Gravity analog。我们说，是的，做吧。这是第一步。好，它又回去思考 34 分钟。half-collinear support，开始 BISTAT。好，这些公式后来确实以某种形式进入了 paper。它们都是正确的。还有一堆内容。最后它说，如果你愿意，我接下来最有用的事情是做这个。我们说，好，通过执行 explicit check 来验证这个。然后它继续。直接跳到最后。最终我们说，好，把 paper 写出来。你可以看到它写出的 paper，而且它和我们实际放到 arXiv 上的最终版本非常接近。

所以它有没有提出一些建议，不是你会建议的下一步？

它非常聪明。它大致知道该往哪里走。对它进行 steer 是有用的。如果把它生成的东西和我们最终放进去的实际 paper 比较，intro、abstract 和 introduction 是 Andy 写的，他是很棒的作者。我认为他对这个问题给出了更宽的视角，说明它如何放进 physics，如何连接到其他内容，而这些是 AI 没有做的。它写的 intro 更 generic，但也还可以。AI 其实能写得很好，只是我们没有真的去让它这么做。

对。

另一点是，我们还加入了这一节——这一节也不是最初那次交流的一部分——讨论的是这些 graviton amplitudes 在物理学某些对称性下如何变换。我们对此非常感兴趣，因为正如我前面提到的，我们最终想理解 quantum gravity。通常，发现一种新理论的第一步，就是理解它有哪些 symmetries。这会给你一个立足点。Andy 尤其一直在推动 celestial holography 这个项目，这本身是一个可以展开很多的方向，但它本质上是在探索 quantum gravity 的 symmetries。他很想理解这一点。还有另一个 chat——我们没有分享那个——在那里我们引导 AI 解释这些答案如何与我们知道这套理论应当具备的 symmetries 对应起来。这部分也写进去了。不过实际上，我觉得从第 3 节开始，基本上就非常接近 AI 写出的内容。所以我会说，这真的很特别。这是 quantum gravity 中一个扎实的结果，几乎完全由 AI 完成，人类在其中负责引导、提出合适的问题，但所有数学推导都是由 ChatGPT Pro，也就是你可以访问的公开模型完成的。我们这些人类花的大部分时间，是在检查所有内容并把它写成论文。这确实很不寻常。我的意思是，我们真的——

所以，作为一名物理学家，你现在所处的位置，其实和很多程序员已经经历过的很像：这里有一个根本性的，或许是 epistemological 的问题。也就是说，作为物理学家，我现在也可以做到那样，对吧？也许我需要更多背景知识，但很多事情其实就是：好，继续做吧。拿这篇论文，给它一些 prompt。你们显然 prompt 得很好，但这似乎并不是说只有你们才能做到。也许一个物理本科生也能想出其中很多东西。所以问题是，当物理本科生不再需要自己完成那些困难计算时，他们现在该如何学习？

这就类似于，本科程序员该如何……实际上，你提出了很多不同的讨论线索，而且都很有意思。我们试着拆开来说。你问得最直接的问题是：下一代人该如何学习？是的，这是一个非常好的问题。我经常思考这个问题。现在这个领域里很多资深物理学家也开始正视这些新能力后，很快就会出现一个问题：我们该如何训练下一代？因为我们当年接受训练的方式，是经历这些艰难的 rite of passage，也就是必须完成非常繁重的计算。你就是这样建立对自己能力的信心，检查并测试自己的知识。这不只是你能做什么的问题，也关乎你知道自己能做到，并向自己证明这一点；建立这种自信很重要。而我们还没有好的答案。这是学术界必须认真面对的问题。

尤其困难的一点是，作为教授，我有研究生，而课程能把学生带到的地方，即使是研究生课程，也只能到某个程度。它们能走得很远，但终究有限。而从课程结束的地方到真正 research 开始的地方，中间其实有巨大的距离，而且这个距离还在变大。通常作为教授，当你接收新学生时，你会在手里留几个“容易”的问题，所谓容易，是指你知道它们一定能做出来。有些问题你知道原则上可以解出来，并不那么困难，但你把它们交给学生，让他们通过这个过程学习问题周边的一切，发展所需的技术；同时你对这个问题了解得足够多，确信那里有一个答案可以到达，也能在学生发现它的过程中给予指导。

我认为现在的问题是，很多这样的题目，这些模型很可能都能直接解决。这些题目通常会花费相当长时间。再说一次，一篇理论物理论文的时间尺度通常是 6 个月到一年。这很常见。所以如果你告诉一个学生，去吧，花 6 个月思考这个问题，你必须非常努力，学习很多相关内容，并做大量计算。即使是最坚定的学生，在这 6 个月里，难道会一次都不向 Tetsu Isii 求助吗？这就有点奇怪了。

但这也是一个机会。因为我记得自己读研究生时的那段时间。在研究生第二年，我第一年修完了所有研究生课程，第二年开始做第一个项目。那其实是我整个研究生阶段最艰难的时期：要穿越一片荒漠，从课程带你到达的地方走向研究前沿。非常难。你会花大量时间撞墙，几乎一直处在困惑中，不理解各种事情，只是因为你需要吸收太多知识。而 AI 完全可以在这方面帮助你。它是最好的老师。它什么都知道，可以把任何复杂事实拆解到你想要的任何细节层级。

实际上，作为一名受过训练的职业物理学家，现在用 GPT 做自己的研究，我的体验是，我的研究方式在两个关键方面已经完全改变。第一，我花在困惑上的时间少得多。我会做一个计算，得到一个答案，然后想：这和我知道的另一个事实怎么对应起来？我该如何在头脑中调和这些东西？我有点困惑。

对，我经常这样。

是的，在研究中，通常你往前走一步，然后发现遇到了路障、障碍，开始困惑，接着你得思考好几天。也许你会去散步，或者做另一个项目，之后再回来，有了一个新想法。但你会花很多时间处在困惑中。这就是自然状态下的研究。有了 GPT，我会说：“我刚做了这个，发现了这个，它和另一个东西怎么衔接？”然后它会说：“你忘了这个”，或者“你这里想得不太对”，或者“这里有一个标准事实”。你花在困惑上的时间会大幅缩短，推进速度快得多。这是其中一种加速效应。

另一种加速效应是，我的空闲时间和精力是有限的，尤其是当你成为教授之后，你要教学，要带学生，要管理 grant，还有很多事情必须做。所以你能不受干扰地思考研究的空闲时间会变少。而且，你能用来做困难计算的精力也有限。通常的做法是，如果你有一个问题，你在 A 点，想去 C 点，你会先想路线：我得先经过 B 点；实际上可能还会有多个中间点。你会在真正开始做困难工作之前，先在脑子里规划自己要走的路径。你会非常认真地思考要去哪里，并制定路线。

有了 AI，你实际上可以启动 10 个 ChatGPT instance，让每一个尝试不同路线，把它们派出去当 scout。它们会很快进入未知区域，向外探索。你可以很快得到一些反馈，判断哪些方法不太有希望，哪些方法更有希望。然后如果你跟进这些方向，就会发现，作为第一个进入未知领域的人，和跟在前面已经有人探过路的人后面，差别非常大。即使 ChatGPT 并不总是把所有事情都做对，只要有一个 scout 能在沿途标出一些关键步骤，让你用来锚定自己的推进，这就非常有帮助。

所以，这就是 AI 改变我工作方式的两个具体例子。我认为，如果你刚进入研究，有一个 assistant 能帮你找到通向目标的路，会非常有用。所以我认为，它不可避免地会改变我们的工作方式、运行方式，以及我们训练学生的方式。我的工作中令人感兴趣的一部分，就是弄清楚这一切如何运作。但这不只是 OpenAI 的工作。更广泛地说，这其实是每一位研究者和教授都需要思考的事。

我认为未来非常光明，因为我们确实还有一些挑战要克服，但总体来看，这是一个非常有用的工具。基于我刚才描述的内容，我认为它会给人类物理学家带来 AI superpowers，因为你能做的事情多得多。而且我认为，要从 AI 中获得好结果，所需要的那种能力，其实非常接近学术研究者在与他人合作时培养出来的能力。它就像一个 collaborator。如果你是一位一直在指导学生和 postdoc 的教授，你会知道，做教授很大一部分工作在于：对每一位与你合作的学生、postdoc，都要知道该给他们什么问题。也就是把问题和人匹配起来，并且知道要以什么方式把问题交给他们，给多少深度、什么层级的细节，不能太多，也不能太少。而这其实也正是你和 ChatGPT 互动时需要思考的事情。所以我认为这是一种可迁移的能力，擅长这件事的人很快就会获得 AI superpowers。

你刚才描述的内容，让我想起我们到目前为止在播客里多次谈到的一个概念：taste。尤其是在 theoretical physics、高能物理中，你说它也许一直有一个问题——我不确定你是否愿意这样描述——就是它可能非常容易受潮流影响。某些东西会变得流行，因为也许我们现在处在一个没有足够数据来定义新方向的世界里，数据无法真正引导或约束我们要往哪里走。

我很好奇，本质上，一个具有超人能力的东西，因为它基本上掌握了所有已知物理，并且能够互动，它会如何与这样一个领域互动：在这个领域的核心，很多时候某些东西之所以变得流行、大家开始研究，更多是基于一般性的 aesthetics，或者说基于 community 在某个时间点集体认为很有意思的东西。因为我可以想象，它可以适配很多不同的世界。比如，使用 Kleinspace，用这种 2-time、2-spatial dimensions 来处理这个问题，本身已经是一种假设。我认为这在某些方面其实相当重要，并且确实会对我们的世界提供反馈。

但问题是，你本可以要求 ChatGPT 用各种各样的方法来解决这个问题。它也许会提出各种各样的东西，而这些东西并不一定符合有用的 taste。作为一个 community，你们实际上如何处理这种情况？也就是会出现大量非常有意思的结果，但其实并不清楚哪些才是领域应该前进的方向。

我想，你问到了 theoretical physics 和 research 中“取得进展”到底意味着什么的核心。这是一个很难的问题，没有简单答案。如果有简单答案，那就不叫 research 了。我先说几点。第一，当你去读 physics 研究生，通常是因为你对那些大问题真的很感兴趣：为什么空间有 3 个维度？Big Bang 发生了什么？black hole 里面是什么？这些问题——也就是我因为 sci-fi 电影、书和文章而思考的问题。后来你会意识到，尽管这些问题很酷、很令人兴奋，但它们并不是最有成效的科学问题，因为在任何给定时刻，知识都有一个边界，而科学家的角色就是扩展这个知识边界，向未知推进。要做到这一点，你需要找到那些正好位于边界上、或者刚刚越过边界的问题，但不能远到你无法处理。所以“为什么空间有 3 个维度”是一个很酷的问题，但我不知道有谁对此提出过真正有说服力的说法。它只是一个超出边界的问题。因此，作为职业 physicist，我不会把时间花在这个问题上，因为我不知道有什么路径可以解决它。去想它并没有用。所以，physicist 的训练过程，实际上包括理解知识边界在哪里，因为那里才有作为科学家能够推进的、有趣且有成效的问题。很多时候，在研究生阶段你会担心：天啊，我得学 Feynman diagrams，还要学所有这些 math 和计算方法。确实，那些东西很难学，需要大量努力。但从某种意义上说，一旦你成为职业 physicist，你应该觉得自己可以学习任何工具，可以拿起当前任务所需的任何工具，并且应该建立这种信心。这才构成一个称职的 physicist。称职的 physicist 是能够学习任何新的数学工具、代码，或任何解决眼前问题所需东西的人。如果你掌握了这种能力，你就是一个好的、或者说称职的 physicist。在研究生阶段，这会让人望而生畏，你必须学很多东西，但到最后，你的工具箱里应该有很多技能，也应该有信心在需要时学习任何新工具。好的 physicist 和伟大的 physicist 之间的区别，在于知道什么才是正确的问题。那实际上是做科学家最难的部分：知道下一步该处理哪个有成效的问题。我认为现在的 AI 在某些计算方面已经是一个很好的 physicist，甚至可能是超人的；但它更像是一个技术能力极强的研究生，你可以给它一个清晰、定义良好的问题，它现在会正确完成极其困难的计算，然后把答案带回来。所以它非常能干，但它还不太具备的一点，是知道什么才是正确的问题。而我认为就像人类一样，这实际上是最难获得的能力，也是最后才会形成的能力。

对。我知道你并没有太多直接做 AI，我也不确定你具体参与到什么程度，但你有没有一种感觉：可以想象一个未来，只要把 reinforcement learning 做得更好，也许彻底改变模型 architecture，让它变成别的东西，不再是 Transformer 之类的，然后能力轨迹继续这样往上走，因为自 2001 年以来，尤其是最近这些能力，增长非常非常快。还是说你感觉我们现在正在接近知识前沿的边缘，所以模型以某种新颖方式 recombine knowledge 的能力，差不多就是这样了？我的意思是，我不是想贬低这些结果，但它似乎做了很多事情，或许也有一些不是这样，但很多是对已知事实的 recombination。你有没有感觉这会继续下去？或者我们是不是会停在某个地方：好，我们已经——

我们已经很擅长 recombine 各种东西了，但没法再往前推进。不要太哲学化地说，我不确定我们任何人是否不只是 recombination machines。

说得也对。

在这个问题上和 GPT Pro 合作，对我来说感觉就像和一个有创造力的合作者一起工作。它做出了一些我不知道的事，让我感到意外。所以我认为——我不确定这里存在质的差异。我觉得只是程度问题。随着我们继续扩展能力，这当然正在发生，我看不出它为什么会停下来。我们确实有一堆 pipeline 里的东西会在今年陆续出现。当然，我对未来的可见范围其实没那么好，超过一年就不太好说，但今年我们肯定会继续 scale up。我看不到任何它会停下来的理由。我认为这会让这些模型展示出在我们看来像真正 creativity 的 insight。我会说，至少在这个项目里，这已经发生了。当然，什么算 creative insight，也有点取决于观察者。

我是说，AlphaGo 对吧？它能想出非常——

几周前我在 UCLA 和 Terry Tao 聊过。我们和 IPAM，也就是那里的数学研究所，办了一场 OpenAI 活动。我和 Terry Tao 聊了，他说在他看来，他见过 AI 在 math 中提出的所有 proofs，即便是一开始显得有创造性、令人意外的那些，后来也都被追溯到其实是从某个冷门 reference 里抽取了事实。我不想替他发言，但我的理解是，Terry Tao 到目前为止还没有被 AI 在 math 中的 creative move 打动。不过 Terry Tao 是一个很特别的人。我是被打动了。我觉得我的门槛更低一些。而且我认为，随着我们继续把它 scale up——我不能讲细节，但 OpenAI 有很多努力，有很多非常聪明、非常努力的人在强力推进下一步。我认为最终会实现。看看我们所在的轨迹就知道了。一年前，我还是 academia 里的 black hole physicist，并没有太关注 AI。我觉得 AI 用来写 emails 很不错，但不会做我做的那种特殊工作。O3，第一个真正很强的 reasoning model，出来后为我做了一个计算，如果我自己做可能要几天，它用了 11 分钟就完成了。我当时想，哇，这让我很震惊。如果我们有时间，可以讲细节，我可以给你看这个例子，因为我保存了下来。它真的让我很意外。然后我想，好吧，我必须认真开始使用这个工具了。据我所知，没有其他 software 能做这种计算。这真的很意外，也很酷。然后 6 个月后 GPT-5 出来了，它能够复现我最难的一个计算。我觉得全世界能做这个计算的人，可能用两只手就数得过来。

你说复现，是指这个结果已经发表了，还是没有发表？它是一个秘密结果，还是 internal result？

去年夏天 6 月，我发了这篇我很喜欢的 paper，在里面我发现——

它叫 Why Is There No Love in Black Holes?

是的，而且 love 实际上是一个技术术语。它指的是 Augustus Love，一位研究潮汐的英国数学家。当像 Moon 这样的物体绕着 Earth 运行时，它会对海洋施加 tidal forces（潮汐力）。因此，你可以通过一些系数来测量，比如 Earth 及其海洋对 Moon 的 tidal response（潮汐响应），这些系数编码了 tidal response 的强度，它们被称为 Love Numbers，也就是以 Augustus Love 命名。但众所周知，black holes 不会经历 tides，所以它们没有 love。过去 5 年，人们对这个事实重新产生了兴趣，因为大家意识到这可以和 symmetry principle（对称性原理）联系起来。在 physics 里，每当某个东西为零，比如，为什么 black holes 永远不会经历 tides？这很奇怪。通常答案是，因为背后有一个 symmetry principle 在起作用，它禁止 tides 的存在，保护 black hole 的结构。所以我发现了这些新的 symmetries。它们是作用在某个方程解上的 differential operators，这个方程描述的是 black hole 的 perturbations。这些 generators 之所以是 symmetries，是因为如果你把它们作用在这个方程的解上，就会得到一个新的解。我觉得这非常漂亮，也很喜欢这个结果。它在 6 月发布在 arXiv 上。8 月，GPT-5 发布了，而它训练集的 cutoff date 早于这篇论文发布。所以 GPT 在训练中没有见过这篇论文。它发布时，我当时想，好，我要——我见到了 OpenAI 的 Chief Research Officer Mark Chen。他说，给 GPT Pro 出一道很难的问题，看看它有多强。我说，你想要难题？

我给你一道难题。

我刚解决了这个问题，还写了一篇论文。我对此很兴奋。我觉得这个结果很深，也很有意思。我把这里的方程给了 GPT，然后问它：symmetries 是什么？我没有告诉它这里有 symmetries，因为默认情况下，答案应该是没有。它思考了 5 分钟后说，是的，没有 symmetries，这通常就是会发生的情况。但这个答案是错的。Mark Chen 明显很失望。他说，哦，好吧，那你给它一个简单点的问题吧。于是我给了它同一个问题，但不是 black hole spacetime，而是 empty flat spacetime，这是一个更简单的问题。但其实这也是我自己处理这个问题的方式。你会先用更简单的问题热身。所以我给了它 flat space 的问题，这也在这篇论文里。就是这个方程，看起来简单得多。它同样有 3 个 symmetry generators，就在这里展示。这并不是新的结果。这些方程已经被研究了 200 年。flat space 里的所有东西早就为人所知了。GPT-5 Pro 思考了大概 9 分钟，然后给出了答案。答案非常漂亮，结构完美，而且完全正确。实际上，当时我也试了其他模型，包括我们竞争对手的模型，那时没有一个能做出来。所以 GPT Pro 确实领先，我认为它现在仍然是做这类 mathematics 和 physics 工作的最佳模型。然后 Marcin 说，好，这很不错，但既然它已经在同一个 chat 实例里完成了热身题，现在模型已经被 primed 了，你再试一次完整问题。我想，好，为什么不呢？于是我又给了它之前同样的问题：这个方程的 symmetries 是什么？这次是完整的 black hole 问题。这一次它思考了 18 分钟，这是我以前从未见过的，然后它给出了答案。也就是说，在不到 30 分钟内，只给了一个 hint，也就是先用显然的热身问题来 prime 模型，它就完全解决了这个问题。而这可以说是我做过的最漂亮的计算之一。这真的让我很震动。那是我的 Move 37 时刻。是的，在 AI 圈我们就是这么叫的。看到那一刻之后，我想，好吧，我们正处在一条很夸张的轨迹上：18 个月前它还没什么用；一年前它可以做非常困难的计算，而这些计算会花我好几天；8 个月前它可以在不到 30 分钟里复现我最好的工作之一；而现在，就在上个月，它解决了我们深入讨论过的这些问题，这些问题是世界级专家花了一年时间思考却没能得到答案的。所以我认为它只会继续变好。6 个月或一年后我们会到哪里？我看不出它有什么理由会停下来。

是的。

我认为接下来这一年会非常令人期待。

好，回到这里，关于 scientific discovery 的这些想法，以及这些模型能做什么，不只是非常擅长、甚至超人地解决 physics 问题。人们一直在问这个问题：假设我们能训练一个版本的 ChatGPT，让它从未见过 1904 年之后的任何东西，它能否重新发现 relativity？我觉得这里可以问一个非常类似的问题：关于 single-minus gluon amplitudes 的新 conceptual result，是由人类 insight 激发出来的。这里有一些非常具体的 assumptions，比如理解在 Kerr spacetime 中工作这件事，是人们一直在思考的，并且带来了一些有用的、可迁移的 insight。人们也已经研究 maximally helicity-violating amplitudes 很长时间了。你有没有试过使用一个正好在这个 cutoff date 之前的模型，然后问它：给定一个 Kerr metric，在 helicity violation 方面有没有什么有意思的东西？或者反过来说，长期以来人们认为，或者长期以来已经知道，除了 Witten 给出的某个 measure zero 的集合之外，不存在 single-minus non-zero amplitudes。你有没有试过这两个方向中的任何一个，让它去发现新的 insight，像你刚才说的那样推进边界，除了不只是解决人类给它的问题之外，它是否真的能获得那种 intuition？

有。

是吗，你试过这个。

不是你描述的那种精确的 counterfactual 版本。我个人没有这样做过，但推动 frontier 上的模型去尝试做这种 leap，是我们非常关注的事情。是的。我觉得，好吧，我不想谈我们正在做的 internal research，但我想我可以公开说一点：你可以把这篇论文的这一页拿出来，喂给 ChatGPT Pro，比如我们现在已经发布的最好的模型，然后问它：我接下来该做什么？基于这篇论文，给我 3 个最重要的 follow-up questions。我做过这个实验，它给出的 top 3 questions 基本就是我认为自己接下来该做的 top 3 questions。所以我觉得现在这些模型已经足够聪明，也有足够的 background knowledge。就这篇论文而言，我会说 GPT 在寻找下一个该问的问题上，差不多和我一样好。这真的很有意思，也打开了很多可能性。那么你是否可以就这样去做——

这叫什么来着？大家都在讨论的那个 agent loop 的名字是什么？就是你说，好，下一个问题是什么，那就去解决它；再问下一个问题是什么，然后继续。所以我想，这也回到我之前问的问题：如果你这样做，而且你们很可能已经试过了，或者 OpenAI 的某个人试过了，我猜它会到达某个平台期，对吧？也就是说，你不再推动知识边界了？还是说这个平台期其实只是钱的问题，如果有更多钱，就能走得更远？

是的，我想说得非常明确一点，因为我之前还没有把这件事说得这么直白：我认为我们现在已经有了能够真正产出论文的 models，而且这些论文的质量可以达到人类撰写论文的水平。事实上，这已经有点成问题了，因为当一位专业物理学家使用这个工具、引导 model 并检查答案时，他们可以得到很好的结果。但也有人会给它输入一些错误的问题，把方向带偏，然后把结果提交到 arXiv。学术界现在正在努力应对这个问题，也就是科学领域的 AI slop。这是我们必须解决的事情。但我会说，在适当引导下，你现在大概可以一天产出一篇论文。比如把问题交给 ChatGPT，它就能解出来。如果这个问题不是特别难，或者只是和已有工作类似的计算，它完全可以在 30 分钟内完成。然后你可以说，把它写成一篇论文，再投到 arXiv。好吧。所以我认为我们已经处在这个时刻了，已经跨过了那个门槛。这就是新的现实。越来越多的人一直在意识到这一点，其中一些人也正在这么做，这就是为什么 arXiv 现在被投稿淹没了。那么正确的回应是什么？我认为我们连续很快发出了这两篇论文。我们当然可以花今年剩下的时间再写 30 篇这样的论文。但我不认为这是我们应该做的。相反，我认为既然我们现在有了这个赋予我们 AI superpowers 的新工具，我们就应该提高“写出一篇好论文”的标准。也就是说，我们应该把目标定得更高。我感到兴奋的一点是，我认为这些 single-minus amplitude 论文现在打开了一整个研究方向，而这个方向我认为是通向 quantum gravity 中一些非常有意思问题的一条进攻路线。回到这次讨论一开始的话题，这是 foundational theoretical physics 中缺失的那块拼图。我认为我们已经有了一条相当清晰的路线，可以通过一系列问题向前推进，而这些问题我认为都适合用 AI 来解决。所以我很期待把今年相当一部分时间花在沿着这条路径走下去，真正去解决越来越难的问题。你知道，这篇论文回答了一个问题，而这个问题让 Andy、Alfredo 和 David 这些领域专家困扰了一年。但我们还没有看到 AI 解决一个让整个物理学界困扰几十年的问题。这还没有发生。不过按照我们现在的发展轨迹，我认为在未来某个时候，希望不会太远，我们应该会看到这种情况。所以我觉得真正令人兴奋的方向，是朝着这一点前进，也就是不断推进可完成工作的边界。

我们想开始问所有嘉宾一个问题：如果你可以为自己的领域移除一个 bottleneck，在这个例子里也许是 AI for physics，也许是 physics，也许主要是 AI；如果你可以为这个领域移除一个 bottleneck，你会选择什么？为什么？

嗯，随口说的话，我花了太多时间写 paper，而我现在的思考方式已经和 paper 相距很远，以至于总觉得它并不是存储和交流知识的合适方式。一个更极端、也更能暴露问题的例子是数学，尤其是数学中的某些分支，那里的 paper 非常简略，可能只有 4 页。我在研究生阶段学习 algebraic geometry 时有过这样的经历：我去问一位数学家，这篇 4 页的 paper 到底在讲什么？里面全是非常简洁的记号。他说：“别管 paper 里写了什么。”然后把我带到黑板前，开始画图。他说：“你应该这样理解它。”我当时觉得，原来如此，这很有意思。但这些内容在 paper 里完全没有。我觉得数学界有一种文化规范：他们会把混乱的推导过程隐藏起来，最后写出漂亮、简短、干净的 paper。这取决于具体子领域，但很多时候确实如此。他们实际把这个学科当作一个鲜活对象来思考的方式，和 paper 中记录下来的方式非常不同。物理学在某种程度上也有类似情况。你知道，我喜欢做计算、提出问题、找到答案。然后我会说，一个很大的瓶颈就是把它写出来。所以不知为什么，我觉得 paper 不太像未来的方式，至少不像我们现在这种运作方式——我把它写成 paper，投给期刊，等 6 个月。我不知道，这就让人觉得：我们为什么要做这一整套流程？也许应该有更好的方式。比如，如果你想理解一篇 paper，你可以把它上传到 ChatGPT，让它给你解释，然后你可以不断把复杂性展开成越来越详细的说明。如果我们进入一个用 AI 做计算、得到结果的世界，接着再把它压缩成一篇 paper，然后我把 paper 发给 Brandon，他又把它放回一个 AI 里，让 AI 去展开——那我们到底为什么要这样做？对吧？这有点好笑。所以如果你问我，20 年后我是否有信心认为我们仍然会用这种静态文档来发表结果，把它们称为 paper？我觉得不会。这看起来不像我们能做的最好的事情。也许会是某种 interactive paper，它存在于某个 LLM 里。也许你的整篇 paper 就是某个 ChatGPT 页面，paper 旁边附着一个 chatbot，你可以说，解释一下整体图景，再放大讲这个具体事实。我觉得我们会朝那个方向走。那会是一件值得期待的事。不过，写 paper 本身是一种有用的训练，因为它迫使你压缩自己的想法，并把它们表达得非常清楚。所以我不是说写 paper 这件事总体上不好，只是我们现在的做法非常慢。这是我首先想到的。另一个答案可能是，在这个项目里，也就是那篇 Graviton paper，我们非常快就得到了 paper 的 draft，然后大部分时间都花在检查答案上。所以我认为这实际上会成为一个很大的、也许是下一个大的瓶颈。如果你问我现在的模型还缺什么，或者说在 scientific research 里我们真正还能改进什么，我觉得我们其实已经谈到两个大的方面了，但我可以把它们说清楚。第一是 creativity，以及发明的火花，真正迈出下一步。我认为这会到来。随着 intelligence 的 scaling up，我们会看到，但我不认为这里有什么本质上缺失的东西。我觉得它已经开始为我做出这些跳跃了，不过也许我们应该鼓励模型尝试做更大的跳跃。因为 large language models 说到底是被训练来给你中间路线的答案的。比如你让 ChatGPT 这样的 AI 帮你写一封关于某某事情的 email，你希望它给你一个符合预期的答案，而不是从分布尾部采样出一封古怪的 email。你希望它给你一个合理的东西。对大多数任务来说，你需要的就是这个。但对 scientific research 来说，有时你需要的是从意想不到的方向冒出来的 idea，是跳出框架的思考，或者说是在分布很远的地方进行采样。原则上我们可以做到这一点，但现在的模型并不是这样运作的。我们并没有真正偏向这种能力。所以我们可能需要做一些这样的调整，让模型能够迈出更大的跳跃。第二是 verification，因为我们现在进入了一个新的状态：模型已经足够强，在知识前沿非常困难的 computation 上，它们可以直接把整件事做完。但问题是，它是正确的吗？在这个案例中，它是正确的。有时我会收到别人发来的 email，说他们做了一个很长的 calculation，但中间某处有错误，这当然让人失望。计算变得越来越复杂、越来越长，所以有时它们会出错。因此我认为，改进 verification，或者甚至只是让模型更直接地表明它对答案有多大信心，会很重要。因为我觉得它们已经足够聪明，知道自己什么时候对答案非常有把握，什么时候只是在某一步有点猜测。让 AI 更明确地表达这一点，我认为会是让它们更适合 research 的一种改进方式。我觉得这个 verification 步骤今年可能会变成更大的瓶颈。

是的。Axiom 的 Karina Hung 肯定会非常同意你的看法。

她——

formal verification 是他们做的事情，对吧？

是的。我觉得这很有意思。一年前我可能会说，formal verification 非常重要。后来模型变得非常聪明，我就想，如果 Brandon 和我讨论一个 mathematical proof，并一起检查它，我们并不会把它 formalize 成 set theoretic notation；或者说，我们并不像 Lean 这种用于 formal verification 的语言那样推理。我们是用 natural language 来推理证明的。我们用词语。所以如果一个模型真的足够聪明，它应该也能做同样的事。我们确实已经看到，模型在 mathematical reasoning 以及用 natural language 展开 proof 方面的能力有了很大提升。所以有一段时间，看起来这似乎不是最应该关注的方向。但现在我们进入了一个状态：你可以让 ChatGPT 同时处理成千上万个问题，它会为其中相当一部分返回 proofs。于是验证所有输出的责任实际上又回到了人类身上。所以是的，如果这变成瓶颈，我认为 formalizing math 和 automating verification 会变得更有价值。在我看来是这样，这也是我们正在认真思考的事情。谢谢。

你希望听众今天带走什么？比如，有没有一个你希望他们离开时记住的信息？

是的，我觉得有必要让更多人知道，我们在 OpenAI 开发的模型，已经在科学研究方面变得很有能力。一年多前，我自己对 AI 还有些怀疑，因为我觉得这些模型很擅长写作类任务，但不擅长数学类任务。O3 改变了这一点，它是第一批强 reasoning（推理）模型；随后 GPT-5 已经能够完成一些我能做的最难计算，并且正确复现结果。最近一个月，我们看到模型解出了理论物理中的开放问题，现在它们也在解决 quantum gravity（量子引力）和 quantum field theory（量子场论）中的问题。所以如果把这种趋势外推到未来，想象一下 6 个月或一年后我们会处在什么位置。我觉得，亲历这个时期有点不真实，但它确实正在发生。它确实很了不起。我认为，我们会看到研究领域发生很多重大变化。所以，是的，请关注这个方向，继续留意后续进展。

很好。

很棒。

非常感谢你抽出时间。这次讨论让我学到了很多，我也一定会继续关注你在做的事情。

谢谢。很高兴来到这里。谢谢。

谢谢。