我对开源模型的押注,2026年中
My bets on open models, mid-2026
当前开源模型在能力上无法在所有领域与闭源模型同步,但顶尖闭源模型并未显示出相对于开源模型不断扩大的能力差距,尤其在2025年下半年至今。能力差距与开源模型资金筹措、蒸馏技术、监管及用户需求等因素交织。Interconnects AI指出,闭源模型在稳健性和通用性上占优,而开源模型在重复性自动化任务中采用增加。中国开源权重实验室可能最早于今年晚些时候面临资金困难。美国预计2027年初在开源模型采用指标上缓慢收复失地。
我们正处在一个将揭示开源模型能否跟上闭源实验室步伐的时代。显而易见的答案是否定的,它们跟不上。这个答案其实是在说,它们无法在所有领域都保持同步。这种表述排除了一个流行的预测:开源模型会完全追上,即所有模型都趋于饱和,开源与闭源模型只会越来越相似。身处这个时代,显然很难看清长期稳定的能力平衡何时会固化。这是一个非常复杂的动态过程,我们关注的核心点是模型之间的能力差距。与此同时,这个差距又与开源模型资金筹措的演变动态、谁在构建开源模型、像蒸馏(distillation)这类支持快速跟进的技术如何通过新的应用领域转化、可能阻碍开源AI生态系统的监管,以及当然还有谁在使用开源模型等因素交织在一起。能力差距只是复杂力量海洋中的一个信号,推动供需呈现出不同的形态。在许多情况下,需求——显然有大量个人、组织和主权国家想要或需要开源模型——在很大程度上与供给是分离的。供给完全由经济因素决定。“哪些商业策略支持发布开源模型”这个问题仍然悬而未决。Interconnects AI 是一份由读者支持的出版物。要接收新文章并支持我的工作,请考虑成为订阅者。鉴于这种复杂性,我想把我的核心观点提炼成一个清晰的列表。这些观点源于我今年春天撰写或录制的10多篇关于开源模型的内容(文中已链接)。令人惊讶的是,基于训练和研究的算力差异,顶尖闭源模型并未显示出相对于开源模型不断扩大的能力差距,尤其是在2025年下半年至今。开源模型实验室在跟上成熟基准测试方面技术实力非常强。这种情况将持续下去,反映了充足人才和足够算力之间的平衡。中国的开源权重实验室比美国类似的闭源实验室更注重基准测试分数。蒸馏技术帮助了中国的大语言模型公司做到这一点,但它并非万能药。蒸馏动态的变化(例如监管)不会成为能力平衡的决定性因素。这种关注度的提升,是他们在保持“跟上前沿”叙事方面的激励自然演变的结果,这对融资和采用至关重要。迄今为止,闭源模型往往比得分相近的开源模型更稳健、更通用。闭源模型具有某些难以衡量的特质,这些特质在当前或过去的基准测试中并未得到很好的体现。这将是在个人用户不断提出新挑战的市场中(即作为直接助手支持知识工作者),闭源模型占据主导地位的关键。通过基准测试来观察的开源与闭源模型竞赛,在很大程度上将是一场经济持久力和快速跟进能力的游戏,直到市场结构收紧。我预计中国的开源权重实验室将首先面临资金困难,最早可能在今年晚些时候。资金困难将在3-9个月后体现在不同的能力发展轨迹上。以强化学习(RL)为主导的训练时代,提高了分布与真实世界用例的相关性,使其成为持续能力改进的关键因素。这些任务是指用户直接使用Claude Code或Codex等工具,通过agent解决工作中的问题。这是闭源实验室在能力上可以主导开源权重模型的第一个明确技术领域,可能直接利用基于用户反馈的在线RL。开源模型将在重复性自动化任务中得到越来越多的采用,这可以从API市场的相对份额来衡量,用于整个生态系统中的重复性任务。这表现为许多新的AI原生应用、业务后端自动化等形式。这方面的成功将推动对特定领域、高效开源模型的更多投资。这是一个复杂的图景,长期轨迹更像是一个经济问题,而非能力问题。许多其他媒体可以描绘出一个更简单的叙事,比如“中国肯定会在AI领域赶上我们”,并因为故事简单而获得更多传播。现实是复杂的。只有真正的AI收入才能带来更多投资,最终这将与快速持续改进模型的能力挂钩。经济现实尚未影响到作为整体类别的开源模型的扩展。分享这个以经济为中心的视角,与我更广泛地看待开源模型生态系统的立场有关。反复出现的禁止某些类型开源模型的呼吁将继续存在,但实际上无法实施。训练强大的AI模型(即接近但未达到前沿)的成本,与大规模部署相比相对较小。例如,如果美国禁止超过一定算力阈值的开源模型,另一个主权实体最终会训练它们并公开发布,这些模型将以更少的监管进入美国市场。对开源模型影响力的二阶导数已经发生变化,美国将在2027年初开始在开源模型的采用指标上缓慢收复失地(中国的速度需要很长时间才能放缓,然后逆转)。例子包括Google的Gemma 4(一个巨大的成功)、Nvidia的Nemotron和Arcee AI。随着越来越强大的闭源模型被构建、预览和发布,将会出现更多安全冲击,声称最强大AI模型的开源权重版本永远不应被允许存在,类似于对Claude Mythos的反应。这些可能会引发对开源模型的繁重监管。基于以上所述,对开源模型的长期兴趣也会增加,因为主权实体和现有权力结构意识到,即将到来的超级强大AI工具不能只落入一家或几家公司手中。这些实体将把开源模型视为一种不同的治理范式。新的开源模型资金结构将会出现,因为许多利益相关者意识到,依赖单一、营利性公司来获取智能是不可靠的。本地agent、OpenClaw和其他个人agent代表了一个迄今为止基本上被忽视的开源模型使用市场。它有点像暗物质,具有普遍且巨大的潜力,可以影响开源与闭源模型的平衡。一个词贯穿了这篇文章,并且被有意重复——复杂。这种复杂的现实一直驱使我更深入地思考如何清晰地描述开源模型差距,以及为什么我可以在脑海中持有这样的预期:尽管近期开源权重模型的能力有相当明确的证据支持,但我仍认为美国闭源实验室会明显领先。关于开源-闭源差距的细微差别,将在另一篇文章中很快呈现,所以请订阅!请告诉我我遗漏了哪些观点。