一声棒喝,本不立文字
偏要著録,已是二义

Interconnects · Nathan Lambert

解读今日开放-封闭性能差距

Reading today's open-closed performance gap

二〇二六年五月十二日 · 英文原文

开源模型与闭源模型的差距常被简化为单一基准分数,掩盖了能力动态。Artificial Analysis Intelligence Index由约10个子评估组成,反映语言模型能力前沿。基准每12-18个月转变焦点,与现实世界表现的相关性减弱。Gemini 3基准分数高但agent部署中不显著。当前训练范式以可验证奖励强化学习(RLVR)主导,焦点转向复杂编码和agentic任务。前沿实验室投入巨资掌握新领域,如会计、法律、医疗,但评估复杂工作流仍是挑战。中国实验室通过蒸馏等杠杆追赶,但RL环境重要性被忽视。

这是一个清晰且当下的平衡:开源模型将永远追赶闭源模型,但这种差距被简化为一个单一数字、一段“距离”,掩盖了模型所覆盖能力背后微妙而关键的动态。讨论这一差距最流行的基准是 Artificial Analysis Intelligence Index——一个由约10个子评估组成的综合基准,他们持续维护以捕捉当前语言模型能力的“前沿”。我花了很多时间理解,人们倾向于将性能和趋势简化为一个数字,从而误解了构成该指数的动态。例如:基准如何随时间演变,与人们实际使用模型的相关性变得或强或弱;不同模型在现实世界中的表现与其基准排名之间的关系;以及训练范式如何随时间演变以推动这些基准。Agentic 基准目前处于一个不错的位置,但基准作为现实世界表现的相关指标已不再那么可信。这个灰色地带的一个关键例子是 Gemini 3 令人瞩目的基准分数,以及它在当前 AI 工具测试和部署(agent)领域中的显著不相关性。这些趋势指向了我们衡量标准中明显且持久的缺陷。

这种动态的核心——即模型现实世界表现与基准分数之间的关联之舞——是行业的持续变迁。随着所有模型(包括开源和闭源)随时间演变,基准关注的焦点大约每12到18个月就会发生一次转变。所有感兴趣的领域都关联着截然不同的训练领域,尤其是在后训练阶段。一个单一范式持续的时间越长,行业衡量其表现的能力就越强。在一个后训练快速改进的新时代,我对基准的个人信心处于相对最低点。

任务演进与LLM范式

ChatGPT 之后,焦点立即集中在聊天、数学和简单代码的混合上。指令微调(instruction tuning)和 RLHF 占据主导。聊天能力很快饱和并消退,随后数学变得不那么重要。进入2025年至今,尤其是推理模型成为默认选择后,焦点转向了更复杂的编码和其他更简单的 agentic 任务。我们正处于这个第一时代的尾声。最近的训练配方都受可验证奖励的强化学习(RLVR)主导,但其应用的领域已从基本的问答检查急剧转向复杂环境。我们看到的是,前沿的闭源实验室正在投入巨额资金来掌握这些当前焦点——即代码、终端任务等——同时开始向更多样化的知识工作任务推进。这些较新的任务涵盖专业领域,如会计、法律、医疗等。它们仍然是 agentic 的,但需要更多专业知识,并且通常需要与现有软件或领域特定工具集成。关于这些新领域能力真实平衡的证据非常有限,但当我提到开源模型将难以跟上时,我关注的正是这些领域。

问题在于,评估复杂的语言模型工作流本身也是一个具有挑战性的研究问题。任务变得越来越难,而用于在这些任务上爬坡所需的数据也变得越来越私有(相对于代码,GitHub 上有大量代码)。领先的开源模型实验室受益于数据行业中的动态,这些动态在经济上类似于建造芯片工厂。美国少数领先的实验室支付天文数字购买新的环境和数据集,然后快速跟进的实验室(通常在中国)稍后以大幅折扣购买这些资源。这是一个关键被忽视的点——非前沿实验室用来保持追赶的杠杆会随时间不断变化。将蒸馏(distillation)视为中国模型进步的关键杠杆,反映了对 RL 环境在当前训练范式中的重要性的忽视。如果一个环境可以被构建为 Artificial Analysis Index 中的单一评估,或者可以镜像它,那么目前中国实验室将能够跟上。

Interconnects AI 是一份由读者支持的出版物。考虑成为订阅者。

重新发明“前沿”的经济压力

值得深思的问题是:当前这套任务(再次强调,编码和终端任务)有多关键?在这些任务上,OpenAI 和 Anthropic 相对于领先的开源权重模型(甚至包括 Google)拥有巨大的商业采用优势,这对维持收入数字至关重要吗?为了维持这些创纪录的增长数字和轨迹,必须持续保持有意义的性能优势。许多公司如果能够换用更便宜、等效的开源模型,会很乐意降低其 token 支出成本。如果 agentic 编码能力饱和,AI 性能的“前沿”转移到别处,那么大量的企业收入可能将依赖于良好的客户关系、惯性和更好的产品开发,而不是模型本身有巨大优势。

这种不稳定的位置就是我所说的:前沿实验室需要不断重新发明自己和该领域的前景,以将庞大的 AI 基础设施投入货币化。我仍然倾向于认为这种投入是值得的,Anthropic 和 OpenAI 将成为利润极其丰厚的企业,因此我将其视为一种信念:一方面它们会继续为模型解锁引人注目、有价值的新用例,另一方面开源模型正在逼近的基准并非完整的信号。我以一种假设来运作:来自中国的领先开源模型比美国领先的闭源实验室更关注基准。它们有动力这样做——它们希望呈现一种始终紧追最佳闭源模型的形象。说中国实验室仅仅因为过度拟合基准才处于这种叙事中,将是极其幼稚和错误的。它们是真正强大的模型,而过度宣传与真正创新之间的动态是一种微妙的平衡。有一些分布外(out-of-distribution)的基准,开源权重模型远远落后,例如 WeirdML 或 ARC AGI 2,但也有无数随机基准显示这些开源模型出乎意料地强大。当你使用这些模型时,你能察觉到这种鲁棒性的缺乏(例如,在长上下文能力方面,需要比 Claude/Codex 更频繁地重置你的 agent 上下文),但它们并非类别错误,并非根本不同类型的模型。它们比许多人预期的要接近得多。

开源模型能跟上多久?

阅读更多

译自 Interconnects · Nathan Lambert · 录于 二〇二六年五月十二日