Interconnects · Nathan Lambert

解读今日开放-封闭性能差距

Reading today's open-closed performance gap

二〇二六年五月十二日 · 英文原文

摘要

开源模型与闭源模型的差距常被简化为单一基准分数，掩盖了能力动态。Artificial Analysis Intelligence Index由约10个子评估组成，反映语言模型能力前沿。基准每12-18个月转变焦点，与现实世界表现的相关性减弱。Gemini 3基准分数高但agent部署中不显著。当前训练范式以可验证奖励强化学习（RLVR）主导，焦点转向复杂编码和agentic任务。前沿实验室投入巨资掌握新领域，如会计、法律、医疗，但评估复杂工作流仍是挑战。中国实验室通过蒸馏等杠杆追赶，但RL环境重要性被忽视。

这是一个清晰且当下的平衡：开源模型将永远追赶闭源模型，但这种差距被简化为一个单一数字、一段“距离”，掩盖了模型所覆盖能力背后微妙而关键的动态。讨论这一差距最流行的基准是 Artificial Analysis Intelligence Index——一个由约10个子评估组成的综合基准，他们持续维护以捕捉当前语言模型能力的“前沿”。我花了很多时间理解，人们倾向于将性能和趋势简化为一个数字，从而误解了构成该指数的动态。例如：基准如何随时间演变，与人们实际使用模型的相关性变得或强或弱；不同模型在现实世界中的表现与其基准排名之间的关系；以及训练范式如何随时间演变以推动这些基准。Agentic 基准目前处于一个不错的位置，但基准作为现实世界表现的相关指标已不再那么可信。这个灰色地带的一个关键例子是 Gemini 3 令人瞩目的基准分数，以及它在当前 AI 工具测试和部署（agent）领域中的显著不相关性。这些趋势指向了我们衡量标准中明显且持久的缺陷。

这种动态的核心——即模型现实世界表现与基准分数之间的关联之舞——是行业的持续变迁。随着所有模型（包括开源和闭源）随时间演变，基准关注的焦点大约每12到18个月就会发生一次转变。所有感兴趣的领域都关联着截然不同的训练领域，尤其是在后训练阶段。一个单一范式持续的时间越长，行业衡量其表现的能力就越强。在一个后训练快速改进的新时代，我对基准的个人信心处于相对最低点。

任务演进与LLM范式

ChatGPT 之后，焦点立即集中在聊天、数学和简单代码的混合上。指令微调（instruction tuning）和 RLHF 占据主导。聊天能力很快饱和并消退，随后数学变得不那么重要。进入2025年至今，尤其是推理模型成为默认选择后，焦点转向了更复杂的编码和其他更简单的 agentic 任务。我们正处于这个第一时代的尾声。最近的训练配方都受可验证奖励的强化学习（RLVR）主导，但其应用的领域已从基本的问答检查急剧转向复杂环境。我们看到的是，前沿的闭源实验室正在投入巨额资金来掌握这些当前焦点——即代码、终端任务等——同时开始向更多样化的知识工作任务推进。这些较新的任务涵盖专业领域，如会计、法律、医疗等。它们仍然是 agentic 的，但需要更多专业知识，并且通常需要与现有软件或领域特定工具集成。关于这些新领域能力真实平衡的证据非常有限，但当我提到开源模型将难以跟上时，我关注的正是这些领域。

问题在于，评估复杂的语言模型工作流本身也是一个具有挑战性的研究问题。任务变得越来越难，而用于在这些任务上爬坡所需的数据也变得越来越私有（相对于代码，GitHub 上有大量代码）。领先的开源模型实验室受益于数据行业中的动态，这些动态在经济上类似于建造芯片工厂。美国少数领先的实验室支付天文数字购买新的环境和数据集，然后快速跟进的实验室（通常在中国）稍后以大幅折扣购买这些资源。这是一个关键被忽视的点——非前沿实验室用来保持追赶的杠杆会随时间不断变化。将蒸馏（distillation）视为中国模型进步的关键杠杆，反映了对 RL 环境在当前训练范式中的重要性的忽视。如果一个环境可以被构建为 Artificial Analysis Index 中的单一评估，或者可以镜像它，那么目前中国实验室将能够跟上。

Interconnects AI 是一份由读者支持的出版物。考虑成为订阅者。

重新发明“前沿”的经济压力

值得深思的问题是：当前这套任务（再次强调，编码和终端任务）有多关键？在这些任务上，OpenAI 和 Anthropic 相对于领先的开源权重模型（甚至包括 Google）拥有巨大的商业采用优势，这对维持收入数字至关重要吗？为了维持这些创纪录的增长数字和轨迹，必须持续保持有意义的性能优势。许多公司如果能够换用更便宜、等效的开源模型，会很乐意降低其 token 支出成本。如果 agentic 编码能力饱和，AI 性能的“前沿”转移到别处，那么大量的企业收入可能将依赖于良好的客户关系、惯性和更好的产品开发，而不是模型本身有巨大优势。

这种不稳定的位置就是我所说的：前沿实验室需要不断重新发明自己和该领域的前景，以将庞大的 AI 基础设施投入货币化。我仍然倾向于认为这种投入是值得的，Anthropic 和 OpenAI 将成为利润极其丰厚的企业，因此我将其视为一种信念：一方面它们会继续为模型解锁引人注目、有价值的新用例，另一方面开源模型正在逼近的基准并非完整的信号。我以一种假设来运作：来自中国的领先开源模型比美国领先的闭源实验室更关注基准。它们有动力这样做——它们希望呈现一种始终紧追最佳闭源模型的形象。说中国实验室仅仅因为过度拟合基准才处于这种叙事中，将是极其幼稚和错误的。它们是真正强大的模型，而过度宣传与真正创新之间的动态是一种微妙的平衡。有一些分布外（out-of-distribution）的基准，开源权重模型远远落后，例如 WeirdML 或 ARC AGI 2，但也有无数随机基准显示这些开源模型出乎意料地强大。当你使用这些模型时，你能察觉到这种鲁棒性的缺乏（例如，在长上下文能力方面，需要比 Claude/Codex 更频繁地重置你的 agent 上下文），但它们并非类别错误，并非根本不同类型的模型。它们比许多人预期的要接近得多。

开源模型能跟上多久？

译自 Interconnects · Nathan Lambert · 录于二〇二六年五月十二日