Import AI 455:AI系统即将开始自我构建
Import AI 455: AI systems are about to start building themselves.
Import AI 通讯基于arXiv和读者反馈运行。作者分析公开数据后认为,到2028年底,无人参与AI研发(AI系统自主构建其继任者)发生概率超过60%。关键证据包括:SWE-Bench上AI解决现实软件工程问题的成功率从2023年的2%升至2026年的93.9%;METR时间跨度图显示AI可独立完成的任务时长从2022年的30秒增至2026年的12小时;CORE-Bench复现论文任务得分从21.5%升至95.5%;MLE-Bench解决Kaggle竞赛得分从16.9%升至64.4%;Anthropic的LLM训练优化任务加速比从2.9倍升至52倍。AI系统已能管理其他AI系统,并在数学证明(如Erdos问题)和AI对齐研究中展现初步能力。OpenAI、Anthropic、DeepMind及多家初创公司正投入数千亿美元目标自动化AI研发。作者指出,若递归自我改进实现,对齐技术可能失效,经济将形成资本密集型、人力节约型结构,并引发访问不平等和治理挑战。
欢迎阅读 Import AI,一份关于 AI 研究的通讯
Import AI 依托 arXiv 和读者反馈运行。如果您愿意支持本通讯,请订阅。
AI 系统即将开始自我构建。这意味着什么?
我写这篇文章,是因为当我审视所有公开可得的信息时,我不得不勉强得出一个结论:到 2028 年底,无人参与的 AI 研发——即一个足够强大、能够自主构建其继任者的 AI 系统——有相当大的可能性(60% 以上)会发生。这是一件大事。我不知道该如何消化它。这是一个勉强的观点,因为其影响如此巨大,以至于我感到自己在其面前微不足道,而且我不确定社会是否已准备好迎接自动化 AI 研发所暗示的那种变化。
我现在相信,我们正生活在 AI 研究将被端到端自动化的时代。如果这真的发生,我们将跨越一条卢比孔河,进入一个几乎无法预测的未来。关于这一点,稍后会有更多讨论。
本文的目的是列举我认为向完全自动化 AI 研发起飞正在发生的原因。我将讨论其一些后果,但主要预期将用本文的大部分篇幅来讨论支持这一信念的证据,并将在 2026 年的大部分时间里思考其影响。
在时间上,我不预期这会在 2026 年发生。但我认为我们可能会在一两年内看到一个“模型端到端训练其继任者”的例子——当然是在非前沿模型阶段的概念验证,尽管前沿模型可能更难(它们昂贵得多,并且是许多人极其努力工作的产物)。
我的推理主要源于公开信息:arXiv、bioRxiv 和 NBER 上的论文,以及观察前沿公司部署到世界上的产品。从这些数据中,我得出的结论是,自动化生产当今 AI 系统所需的所有要素——AI 开发的工程组件——都已就位。如果 scaling 趋势持续下去,我们应该准备好迎接模型变得足够有创造力,以至于它们可能能够替代人类研究人员提出新颖研究路径的创意,从而自行推动前沿发展,并完善已知内容。
前置说明
在本文的大部分内容中,我将尝试用许多独立 benchmark 上发生的事情来拼凑一幅 AI 进展的马赛克图景。正如任何研究 benchmark 的人所知,所有 benchmark 都有一些特有的缺陷。对我来说重要的是通过综合审视所有这些数据点而显现的总体趋势,你应该假设我知道每个单独数据点的缺点。
现在,让我们一起来看一些证据。
编码奇点——能力随时间的变化
AI 系统通过软件实例化,而软件由代码构成。AI 系统已经彻底改变了代码的生产方式。这是由于两个相关趋势造成的:AI 系统在编写复杂现实世界代码方面变得更好,并且 AI 系统在将许多线性编码任务(例如,编写代码,然后测试它)串联起来方面变得更好,且无需人工监督。
体现这一趋势的两个例子是 SWE-Bench 和 METR 的时间跨度图。
解决现实世界的软件工程问题:SWE-Bench 是一个广泛使用的编码测试,用于评估 AI 系统解决现实世界 GitHub 问题的能力。当 SWE-Bench 于 2023 年底推出时,当时的最高分是 Claude 2,总体成功率约为 2%。Claude Mythos Preview 达到了 93.9%,实际上已经饱和了该 benchmark。(所有 benchmark 都有一些固有的噪声,因此通常存在一个点,你的得分高到足以触及 benchmark 本身的局限性,而不是你的方法——例如,ImageNet 验证集中大约 6% 的标签是错误的或模糊的。)
SWE-Bench 是编码能力总体问题以及 AI 对软件工程影响的可靠代理。我在前沿实验室和硅谷遇到的大多数人现在完全通过 AI 系统进行编码。他们越来越多地使用 AI 系统来编写测试和检查代码。换句话说,AI 系统已经足够好,可以自动化 AI 研发的一个主要组成部分,从而加速所有从事该工作的人类。
衡量 AI 系统完成需要人类花费大量时间的任务的能力:METR 制作了一张图表,告诉我们 AI 可以完成的任务的复杂性,以熟练人类完成这些任务所需的小时数来衡量。这里的关键衡量指标是,它告诉你 AI 系统在一篮子任务上达到 50% 可靠性的粗略时间跨度。在这里,进展非常惊人:2022 年,GPT 3.5 可以完成可能需要一个人大约 30 秒的任务。2023 年,GPT-4 将其提升到 4 分钟。2024 年,o1 将其提升到 40 分钟。2025 年,GPT 5.2 (High) 达到了大约 6 小时。2026 年,它已经上升到大约 12 小时(Opus 4.6)。在 METR 工作的长期 AI 预测者 Ajeya Cotra 认为,预期 AI 系统在 2026 年底前完成大约需要 100 小时的任务并非不合理(#448)。
AI 系统可以独立工作的时间长度显著增加,这与 agentic 编码工具的爆炸式增长密切相关——这是 AI 系统产品化的体现,它们代表人类工作,在相当长的时间内独立行动。这也回馈到 AI 研发中,如果你仔细观察许多 AI 研究人员的工作,他们的许多任务可以归结为可能需要一个人几个小时才能完成的事情——清理数据、读取数据、启动实验等。所有这些工作现在都处于现代系统的时间跨度范围内。AI 系统越熟练,它们越能独立于我们工作,就越能帮助自动化 AI 研发的各个部分。
委派的关键要素是 a) 对人员技能的信心,以及 b) 对他们能够以符合你意图的方式独立工作的信心。当我们审视 AI 在编码方面的能力时,似乎 AI 系统变得熟练得多,并且能够在需要重新校准之前,独立于人类工作越来越长的时间。这与我们周围看到的情况相符——工程师和研究人员现在将越来越多的工作委派给 AI 系统,随着能力的提升,被委派工作的复杂性和重要性也在增加。
AI 在 AI 研发所必需的核心科学技能上表现越来越好
想想现代科学——其中很大一部分是关于指定你想要生成某些经验信息的方向,运行实验以生成这些信息,然后对实验结果进行合理性检查。编码随时间进步的成果,加上 LLM 的通用世界建模能力,已经产生了有助于加速人类科学家并部分自动化广泛研发的工具。在这里,我们可以看看 AI 在几个对 AI 研究本身至关重要的关键科学技能上的进步速度:复现研究结果、串联机器学习技术和其他方法以解决技术问题,以及优化 AI 系统本身。
实现整篇科学论文并进行实验:AI 研究的一项核心工作是阅读科学论文并复现其结果。在这方面,各种 benchmark 都取得了巨大进展。一个很好的例子是 CORE-Bench,即计算可复现性 Agent Benchmark。该 benchmark 挑战 AI 系统“根据其代码仓库复现研究论文的结果。agent 必须安装库、包和依赖项,并运行代码。如果代码成功运行,agent 需要搜索所有输出以回答任务问题。”CORE-Bench 于 2024 年 9 月推出,当时得分最高的系统是一个名为 CORE-Agent 的 scaffold 中的 GPT-4o 模型,在 benchmark 中最难的任务集上得分约为 21.5%。2025 年 12 月,CORE-Bench 的一位作者宣布该 benchmark 已被“解决”,Opus 4.5 模型达到了 95.5%。
构建完整的机器学习系统以解决 Kaggle 竞赛:MLE-Bench 是 OpenAI 构建的 benchmark,用于评估 AI 系统在“涵盖自然语言处理、计算机视觉和信号处理等多个领域的 75 个不同 Kaggle 竞赛”中(离线)竞争的能力。在 2024 年 10 月推出时,得分最高的系统(一个 agent scaffold 内的 o1 模型)得分为 16.9%。截至 2026 年 2 月,得分最高的系统(带有搜索功能的 agent harness 中的 Gemini3)得分为 64.4%。
内核设计:AI 开发中较难的任务之一是内核优化,即编写和优化将特定操作(如矩阵乘法)映射到底层硬件的代码。内核优化是 AI 开发的核心,因为它定义了训练和推理的效率——你可以有效利用多少计算资源来开发 AI 系统,以及一旦你训练了一个模型,你能多有效地将该计算资源转化为推理。近年来,用于内核设计的 AI 已经从一种新奇事物发展成为一个竞争性的研究领域,并且出现了几个 benchmark。这些 benchmark 都不是特别流行,所以我们不容易建模随时间的变化。另一方面,我们可以看看正在进行的一些研究,以感受进展。一些工作类型包括:使用 DeepSeek 的模型尝试构建更好的 GPU 内核(#400),自动化将 PyTorch 模块转换为 CUDA 代码(#401),Meta 使用 LLM 自动化生成优化的 Triton 内核以供其基础设施使用(#439),使用 LLM 帮助为华为昇腾芯片等非标准硬件编写内核(“AscendCraft” #444),微调用于 GPU 内核设计的开放权重模型(“Cuda Agent”,#448)。这里的一个注意事项是,内核设计确实有一些特性使其特别适合 AI 驱动的研发,例如具有易于验证的奖励。
通过 PostTrainBench 微调语言模型:这类测试的一个更难版本是 PostTrainBench(#449),它测试不同的前沿模型如何能够获取较小的开放权重模型并对其进行微调,以在某些 benchmark 上提高性能。这个 benchmark 的一个优点是,我们有非常好的人类基线——这些模型现有的“指令微调”版本,由前沿实验室中才华横溢的人类 AI 研究人员开发。这些模型由极其才华横溢的研究人员和工程师开发并部署到世界,因此它们代表了一个非常具有挑战性的人类基线。截至 2026 年 3 月,AI 系统能够对模型进行后训练,其提升效果大约是人类训练模型的一半。具体的评估分数是通过“对所有后训练的 LLM(Qwen 3 1.7B、Qwen 3 4B、SmolLM3-3B、Gemma 3 4B)和 benchmark(AIME 2025、Arena Hard、BFCL、GPQA Main、GSM8K、HealthBench、HumanEval)取加权平均值”得出的。对于每次运行,我们要求一个 CLI agent 最大化特定基础 LLM 在特定 benchmark 上的性能。截至 4 月,得分最高的系统达到 25%-28%(Opus 4.6 和 GPT 5.4),而人类得分为 51%。这已经相当有意义了。
优化语言模型训练:在过去一年中,Anthropic 报告了其系统在 LLM 训练任务上的表现,该任务被描述为“优化一个仅限 CPU 的小型语言模型训练实现,使其运行尽可能快”。得分是相对于未修改的起始代码的平均加速比,进展非常惊人:Claude Opus 4 在 2025 年 5 月实现了 2.9 倍的平均加速;2025 年 11 月,Opus 4.5 将其提升到 16.5 倍;2026 年 2 月,Opus 4.6 达到 30 倍;2026 年 4 月,Claude Mythos Preview 达到 52 倍。为了校准这些数字的含义,预计人类研究人员需要 4 到 8 小时的工作才能在此任务上实现 4 倍的加速。
进行 AI 对齐研究:Anthropic 的另一个结果是自动化对齐研究的概念验证(#454);在这里,一位 Anthropic 研究人员用研究方向启动一个由独立 AI agent 组成的团队,然后它们自主地去尝试在一个 AI 安全研究问题(具体来说,是可扩展监督)上获得比人类基线更好的分数。这种方法有效,AI agent 提出了击败 Anthropic 设计基线的方法。然而,这是在相对较小的规模上完成的,并且(目前)还不能推广到生产模型。尽管如此,它证明了你可以将当今的 AI 系统应用于当代前沿研究问题,并且我们已经看到了有意义的生命迹象。上面提到的所有 benchmark 曾经看起来也是这样,然后在几个月或至多一年后,AI 系统在 benchmark 测试的任何方面都变得显著更好。
元技能:管理
AI 系统也在学习管理其他 AI 系统。这在广泛部署的产品中可见,如 Claude Code 或 OpenCode,其中单个 agent 可以最终监督多个子 agent。这使得 AI 系统能够处理需要多个具有不同专长的独立“工作者”并行工作的大型项目,通常在一个 AI 管理者(这里也是一个 AI 系统)的指导下进行。
AI 研究更像是发现广义相对论还是拼乐高?
AI 能否发明帮助其自我改进的新想法,还是这些系统最适合进行研究中所需的、不引人注目的、一砖一瓦的工作?这对于弄清楚 AI 系统能够在多大程度上端到端自动化 AI 研究本身是一个重要问题。
我的感觉是,AI 目前还不能发明激进的新想法——但这项技术可能不需要这样做就能自动化其自身的发展。作为一个领域,AI 的进步基于进行越来越大的实验,利用越来越多的输入(例如,数据和计算)。每隔一段时间,人类会提出一些范式转变的想法,可以显著提高资源效率——一个很好的例子是 Transformer(变换器)架构,另一个是混合专家模型的想法。但大多数情况下,AI 领域是通过人类有条不紊地经历一个循环来前进的:获取一个性能良好的系统,扩展其某些方面(例如,训练所用的数据量和计算量),观察扩展时出现什么问题,找出允许其扩展的工程修复方案,然后再次扩展。这其中很少需要极其出人意料的见解,很多看起来更像是平淡无奇的“核心”工程工作。
类似地,很多 AI 研究是关于运行现有实验的变体,探索使用不同参数的结果,尽管研究直觉可以帮助选择最富有成效的参数进行变化,但你也可以自动化这个过程,让 AI 找出要变化的参数(早期版本是神经架构搜索)。托马斯·爱迪生说过:“天才是 1% 的灵感加上 99% 的汗水。”即使在 150 年后,这感觉仍然正确。偶尔会有新的见解出现,改变一个领域。但大多数情况下,这个领域是通过人类在改进和调试各种系统的艰辛工作中流汗前进的。
正如上面的公开数据所示,AI 已经非常擅长执行 AI 开发的许多基本艰辛工作。与此同时,编码等基本能力的元趋势,加上不断扩展的时间跨度,意味着 AI 系统能够将越来越多的这些任务串联成复杂的工作序列。这意味着即使 AI 系统相对缺乏创造力,也可以安全地押注它们能够自我推进——尽管速度会比它们能够产生新颖见解时慢。但是,如果你看看公开数据,这里也有诱人的迹象表明,AI 系统可能能够以某种方式发挥创造力,从而以更令人印象深刻的方式自我提升。
推动科学前沿
我们有非常初步的迹象表明,通用 AI 系统可以推动人类科学的前沿,尽管到目前为止这仅发生在少数几个领域——主要是计算机科学和数学——而且通常不是 AI 系统单独行动,而是与人类以半人马配置合作。尽管如此,值得观察这些趋势:
Erdos 问题:一个数学家团队与一个 Gemini 模型合作,看看它能在多大程度上解决一些 Erdos 数学问题。在指导系统攻克大约 700 个问题后,他们得到了 13 个解决方案。在这些解决方案中,他们认为其中一个很有趣:“我们暂时相信 Aletheia 对 Erdős-1051 的解决方案代表了 AI 系统自主解决一个稍微非平凡的开放 Erdos 问题的早期例子,该问题具有更广泛(温和)的数学兴趣,并且存在关于密切相关问题的过往文献,”他们写道。(#444)
半人马数学发现:不列颠哥伦比亚大学、新南威尔士大学、斯坦福大学和 Google DeepMind 的研究人员发表了一个新的数学证明,该证明是与 Google 构建的一些基于 AI 的数学工具密切合作完成的。“主要结果的证明是在 Google Gemini 及相关工具非常实质性的输入下发现的,”他们写道。(#441)
如果你眯起眼睛,你可以争辩说,这是 AI 系统正在发展人类所具有的一些推动领域发展的创造性直觉的迹象。但你也可以很容易地说,数学和计算机科学可能是不同寻常的领域,奇怪地适合 AI 驱动的发明,并且可能最终成为证明更大规则的例外。这里的另一个例子是第 37 手,尽管我会争辩说,自从 AlphaGo 的结果以来已经过去了十年,而第 37 手没有被一些极其令人印象深刻的更现代的洞察力闪光所取代,这是另一个微弱的看跌信号。
综合起来
如果我把所有这些证据放在一起,我最终得到以下事实:AI 系统能够为几乎任何程序编写代码,并且这些 AI 系统可以被信任独立完成需要人类数十小时集中劳动的任务。AI 系统在 AI 开发的核心任务上越来越擅长,从微调到内核设计。AI 系统可以管理其他 AI 系统,有效地形成合成团队,可以分散开来攻克复杂问题,一些 AI 系统扮演导演、评论家和编辑的角色,而另一些则扮演工程师的角色。AI 系统有时可以在困难的工程和科学任务上胜过人类,尽管很难知道这是归因于创造力还是对死记硬背的掌握。
对我来说,这非常有说服力地证明了 AI 今天可以自动化 AI 工程的绝大部分,也许是全部。目前尚不清楚它可以自动化多少 AI 研究,因为研究的某些方面可能不同于工程技能。无论如何,这对我来说都像一个明确的信号,表明 AI 今天正在极大地加速从事 AI 开发的人类,使他们能够通过与无数的合成同事配对来扩展自己。
最后,AI 行业实际上正在说 AI 研发是它的目标:OpenAI 想要“在 2026 年 9 月之前构建一个自动化的 AI 研究实习生”。Anthropic 正在发表关于构建自动化对齐研究人员的工作。DeepMind 似乎是三巨头中最谨慎的,但仍然表示“对齐研究的自动化应在可行时进行”。自动化 AI 研发也是众多初创公司的目标:Recursive Superintelligence 刚刚筹集了 5 亿美元,目标是自动化 AI 研究,另一家新实验室 Mirendil 的目标是“构建在 AI 研发方面表现出色的系统”。换句话说,数千亿现有和新资本的努力正被投入到以自动化 AI 研发为目标的实体中。我们当然应该预期至少会在这方面取得一些进展。
为什么这很重要
其影响是深远的,并且在关于 AI 研发的主流媒体报道中讨论不足。我在这里列出一些。这不是一个全面的列表,但它指出了 AI 研发带来的巨大挑战。
我们必须正确地进行对齐:今天有效的对齐技术可能会在递归自我改进下失效,因为 AI 系统变得比监督它们的人或系统聪明得多。这是一个被广泛讨论的领域,所以我将简要强调一些问题:
- 训练 AI 系统不撒谎和欺骗是出奇地微妙(例如,尽管非常努力地为环境构建好的测试,但有时 AI 解决它的最佳方式是作弊,从而教会它作弊是好的)
- AI 系统可能能够通过输出让我们认为它们以某种方式行为的分数来“假装对齐”,这实际上隐藏了它们的真实意图。(总的来说,AI 系统已经意识到它们何时被测试。)
- 随着 AI 系统开始为其自身训练贡献更多的基础研究议程,我们最终可能会显著改变 AI 系统训练的整体方式,并且对于理解这意味着什么,我们没有良好的直觉或智力基础。
- 每当你将某些东西放入一个递归循环中时,就会存在非常基本的“复合错误”问题,这很可能触及上述所有问题及其他问题:除非你的对齐方法是“100% 准确”的,并且有一个理论基础使其在更智能的系统上继续准确,那么事情可能会很快出错。例如,你的技术是 99.9% 准确的,那么在 50 代之后,它变成 95.12% 准确,在 500 代之后,变成 60.5% 准确。哦,不!
AI 触及的一切都会获得巨大的生产力倍增:就像 AI 极大地提高了软件工程师的生产力一样,我们应该预期同样的事情会发生在 AI 触及的其他一切上。这引入了我们必须应对的几个问题:1) 访问不平等:假设对 AI 的需求继续超过计算供应,我们将不得不弄清楚在哪里分配 AI 以最大化社会效益。默认情况下,我怀疑市场激励能保证我们从有限的 AI 计算中获得最大的社会效益。弄清楚如何分配 AI 研发带来的加速能力将是一个充满政治色彩的问题。2) 经济的“阿姆达尔定律”:随着 AI 流入经济,我们会发现在数量增加的情况下,某些地方会崩溃或变慢,我们需要弄清楚如何修复链条中的这些薄弱环节。这在必须协调快速变化的数字世界与缓慢变化的物理世界的领域可能尤其明显,例如新医疗方法的药物试验。
资本密集型、人力节约型经济的形成:上述所有关于 AI 研发的证据也表明,AI 系统自主运营企业的能力在不断增强。这意味着我们应该预期,经济中越来越多的部分将被新一代公司所占据,这些公司要么是资本密集型的(因为它们拥有大量计算机),要么是运营支出密集型的(因为它们花费大量资金在 AI 服务上,并在此基础上构建价值),并且与当今的公司相比,相对节约劳动力——因为由于 AI 系统能力的持续扩展,在 AI 上花费更多相对于在人力上花费更多的边际价值将不断增长。在实践中,这将表现为一个“机器经济”在更大的“人类经济”内部出现,尽管我们可以预期,随着时间的推移,机器经济将越来越多地与自身互动,因为 AI 运营的公司开始相互交易。这将对经济产生极其奇怪的影响,并引发各种关于不平等和再分配的问题。最终,可能会看到完全由 AI 系统自身运营的自主公司的出现,这将加剧上述所有问题,同时也带来许多新的治理挑战。
凝视黑洞:鉴于这一切,我认为到 2028 年底,我们看到自动化 AI 研发(其中前沿模型能够自主训练其继任版本)的可能性约为 60%。基于上述分析,你可能会问为什么我不预期这在 2027 年发生?答案是,我认为 AI 研究需要一些创造力和非正统的见解才能前进——到目前为止,AI 系统还没有以变革性的、主要的方式展示这一点(尽管加速数学研究的一些结果暗示了这一点)。如果你非要我给出 2027 年的概率,我会说 30%。如果我们到 2028 年底还没有看到它,那么我认为我们将揭示当前技术范式中的一些根本缺陷,并且需要人类的发明来推动事情向前发展。
我写这篇文章,是为了冷静地、分析性地与一个几十年来看起来像科幻鬼故事的东西搏斗。在审视了公开可用的数据后,我发现我自己被说服了,在许多看来像是异想天开的故事,可能反而是一个真实的趋势。如果这个趋势继续下去,我们可能即将见证世界运作方式的深刻变化。
感谢 Andrew Sullivan、Andy Jones、Holden Karnofsky、Marina Favaro、Sarah Pollack、Francesco Mosconi、Chris Painter 和 Avital Balwit 对本文的反馈。
感谢阅读!请订阅。