2026年5月，下一步的一些想法

Some ideas for what comes next, May 2026

二〇二六年五月二十六日 · 英文原文

摘要

2026年AI发展将持续加速，开源模型尚未达到Claude Code中Opus 4.5的agent性能水平，预计需12个月以上；Gemini未对Claude Code和Codex构成有效竞争；Mythos在软件工程和网络安全领域表现突出，但中国实验室受限于资源；美国开源模型（如Gemma 4、Nemotron）正缓慢蓄力，采用Apache 2.0许可；Anthropic与OpenAI在模型迭代上加速竞争，GPT 5.5和Codex推动工作方式变革；现有权力结构（如教皇、中国政府、美国）正通过文件、人员限制和国家安全指定介入AI治理，技术问题将演变为社会冲突。

随着人工智能的逐年推进，其带来的后果也在缓慢加剧。模型能力越来越强，我们的工作方式迅速改变，AI 的经济效益正变得真实，与此同时，现实世界的风险也日益凸显。2026 年将是我认为这种势头不会出现任何中断的第一年。需要准备的难点在于，情况很可能只会从这里开始持续升级——更多的颠覆、更多的意外、更高的风险。就我而言，有越来越多的话题对我如何看待 AI 的现状至关重要，但我甚至还没来得及写下来（至少没有从我想探讨的所有角度来写）！所有这些都紧密关联着不同模型达到新能力水平所带来的影响，以及我如何据此推断接下来可能发生的事情。

1. 开源模型尚未迎来像 Opus 4.5 那样的真正 Agent 时刻

开源与闭源模型之间的时间差经常被讨论，但现实是，我们有一个很好的时间窗口，它独立于有争议的 benchmark——即开源权重模型在 agent 框架中是否会变得极其有用。2025 年 12 月 Claude Code 中的 Opus 4.5 时刻是如此响亮和明显，以至于如果开源模型能以低至每月 5 美元的价格达到这一性能水平，使用量将会爆炸式增长。目前我们已经过了大约 5-6 个月，还没有出现同等的开源模型。我怀疑，我所写到的那些最佳闭源前沿模型的稳健性，可能会让这个时刻需要更长的时间才能到来，比如说接近 12 个月以上。在这段时间里，Claude Code 和 Codex 可能会看起来像是不同类别的产品。在来自不同实验室的、新的、最先进的开源模型的标准热潮中，benchmark 肯定会继续攀升，但随着实际使用成为真正的试金石，开源与闭源之间的差距应该会变得更加可解释。

2. Gemini 仍然没有对 Claude Code 和 Codex 构成有意义的竞争

我能提供的最有力的感叹号，来强化我的预测——即开源模型比 benchmark 所声称的要落后得多——那就是，即使是强大的 Google 也没有明确的竞争对手来对抗 Claude Code 和 Codex。我相信 Gemini 团队正在为此付出巨大努力。我仍然需要对 Gemini 3.5 Flash 进行更多测试，但阅读评论后很明显，它无法替代我目前的工作方式。也许不是 Gemini 团队明确专门针对 Google 现有产品（搜索、YouTube 等）进行优化，但该模型似乎很适合它们。如果 Google 不能很快在这里推出一个强大的工具，我也不指望开源模型实验室能做到。开源模型将更多地用于自动化企业 agent 和低成本领域，而不是成为现代知识工作的驱动工具。这将直接为资助未来模型的经济引擎提供动力，而像 Claude Code 和 Codex 这样的 agent 是目前实现 AI 收入大幅增长的最佳途径。我与 Grace Shao 讨论过当前环境如何悄然推动中国实验室专注于 AI Proem，而这正是我预期开源模型在未来几年将专业化，而不是与 OpenAI、Anthropic 和 Google 竞争的核心。

Interconnects AI 是由读者支持的出版物。考虑成为订阅者。

3. 我不认为今年会出现开源权重的 Mythos

虽然我不认为 Mythos 是一个能在所有领域碾压竞争的通用“神级模型”，但我确实认为它是软件工程和网络安全领域一项非凡的技术成就。Mythos 显然是这些领域的一个分水岭时刻。在与大多数中国实验室——特别是那些拥有最突出、大型开源 MoE 模型的实验室，如 Kimi、Z.ai、DeepSeek 和 Qwen——交谈后，我认为它们严重受限于资源，并且没有像美国大型实验室那样立即扩大训练流程的途径。对于那些更具企业性质、拥有更多资源的实验室，如阿里巴巴和字节跳动，它们在安全方面也持有更保守的立场。Mythos 是美国最大公司可用的训练和研究算力大幅加速的风向标。Epoch AI 最近发表了一篇关于各实验室可用算力的好文章（~Google 25%，Meta 11%，OpenAI 11%，Anthropic 6%）。所有这些数字都远高于任何中国实验室。

4. 美国开源模型正在缓慢蓄力

Nvidia 的 Nemotron、Google 的 Gemma、Arcee AI 等公司正在缓慢稳定美国的开源模型生态系统。这里有很多难以衡量的东西，尤其是在像 OpenClaw 和 Hermes 这样的本地 agent 的兴起方面，但自 Llama 3 以来，我们还没有见过美国模型有这样的采用率。Gemma 4 的模型都与同等规模的 Qwen 3.5/3.6 模型持平或表现更优——而多年来，Qwen 一直是这些规模下的默认开源模型。这些 Qwen 3.5/3.6 模型在许多后训练研究中很难正常工作，部分原因是架构/工具，部分原因可能是建模（即由于某些训练决策，模型不容易微调）。我很少听到关于 Gemma 的抱怨，但也可能是因为 Gemma 尚未成为研究人员的默认选择。我们最近在 GPT-OSS、Nemotron 3 以及现在的 Gemma 4 等模型上看到了一个简单的事实：如果一个模型在合适的 benchmark 范围内，并由美国实验室以真正宽松的许可发布，它将获得大量采用（在这个周期中，回想一下 Gemma 4 采用了 Apache 2.0 许可证，改变了早期 Gemma 上带有使用限制的许可证）。美国开源模型增长的这一早期阶段正在直接与开发者建立关键品牌。共识是，像 Reflection 和 Thinking Machines 这样的新实验室很可能会参与这个领域，但过于耐心将会失去建立新的 agent 工作流和企业关系的时间。

5. Anthropic 和 OpenAI 在模型迭代上才刚刚开始加速

我预计今年剩余时间将是这两家旗舰公司之间残酷的竞争。我处于一个有趣的平衡点：我认为 GPT 5.5 是一个更聪明的模型，并且我喜欢 Codex App，所以我正在将我的大部分工作安排得可以在那里完成。与此同时，对于许多与写作相关和更广泛领域的任务，我仍然非常喜欢 Claude。这些模型正在迅速改变我们的工作方式，我在做其他事情时从手机上运行 Codex，正在 agent 后端设置自动化的开源模型分析任务，并期望能够广泛扩展 Interconnects 的研究方面。

AI 开始推动公司走向规模化时代的两个极端。最大的公司将比以往任何时候都大得多，利用资源和大量人才在原始 AI 能力的前沿取得持续进步。另一方面，像 Interconnects 这样的小型企业通过使用 agent 来提炼、展示和销售利基专业知识而蓬勃发展。随之而来的大规模社会就业岗位转移，将降低那些在纯技术方面（无论是大公司还是小公司）不适合这两个极端的各种知识工作者的就业能力，同时维持甚至可能放大那些直接与人类（例如医生）或其他有能力维持自身的权力结构（法律/政府）打交道的职业。

6. 更多现有权力结构将在 AI 上彰显自身

就在我写这篇文章的最后几天，教皇发布了一份超过 40,000 字的文件，阐述 AI 的发展方向，而中国则扩大了对顶尖 AI 研究人员跨行业的人员流动限制。与此同时，美国已将 Anthropic 指定为供应链风险，并继续使用其模型用于国家安全。这类新闻的列表只会越来越长。现有的权力结构正在意识到，它们有一个有限的时间窗口来在 AI 动态中施加自身影响力——这是一种直觉，可以映射为随着 AI 模型变得更强大，其影响力会下降。这种直觉可能很危险，因为它会在谁控制这项技术的问题上引发重大冲突（正如我在 Anthropic 与 DoW 争执后与 Dean Ball 讨论的那样）。

下一步：技术问题如何演变为社会问题

这些主要是技术和权力趋势的加速，将给美国国内的社会和政治反 AI 情绪带来更大压力。这目前是持续 AI 发展和有益推广的最明显障碍。反思这一点，技术讨论中的许多人过于关注细节，是的，许多反对数据中心的人确实在为其立场辩护时提出了完全错误的事实主张。大量美国人真正的立场是，他们有权对当前趋势说“不”——通过不批准建设数据中心。这是过去几十年改变了全球经济面貌和权力结构的科技行业未曾赋予他们的发言权。这为我们行业未来一年将面临的挑战埋下了伏笔。

实验室正在将人才聚集和集中到顶峰水平。很少有中立的信使向公众传达 AI 的现实。前沿实验室的领导层大多在准备 IPO，并在能力竞赛中保持领先。在现状下，几乎没有行动可以扭转这条通往社会冲突的道路。这需要 AI 生态系统中的个体另辟蹊径，抵制那种必须今天致富、必须待在实验室才能做有影响力工作的群体思维，等等。我个人继续押注于此，试图通过提供清晰、无偏见的信息，来支持一个充满活力和多样化的开源模型生态系统。如果你同意这一点，并且一直在旁观，那么现在是参与进来的好时机，以免局势失控。

译自 Interconnects · Nathan Lambert · 录于二〇二六年五月二十六日