Interconnects · Nathan Lambert

开放模型生态如何持续放大优势

How open model ecosystems compound

二〇二六年五月十二日 · 英文原文

摘要

构建领先AI模型的大部分算力用于研发（约80%），而非最终训练。中国开放生态系统通过技术报告和知识共享降低同行研发成本，形成类似开源软件（OSS）的成本优势。Ai2的Olmo 3和Epoch AI的研究支持这一估算。开放模型降低开发者未来成本，但直接使用封闭托管方案更便宜。中国实验室通过共享避免重复投入，但开源工具分支为内部版本的趋势可能削弱优势。当前缺乏共享基础模型，LLM性能持续提升使均衡状态短期难变。封闭实验室从开放前沿获益较少，开源社区越强，各公司成本动机越接近。

注意：付费文章的语音版可在播客应用中获取，供付费订阅者使用——只需在 Interconnects 上点击设置，然后管理你的描述即可。感谢收听！

构建领先前沿模型的大部分算力来自研发成本，而非用于端到端训练最终大模型的算力。在中国这样的生态系统中，所有领先玩家都是开放的，这就在成本结构上创造了一个潜在的重要优势，使得实验室能够比外部观察者预期的更长时间地持续建设。最近有两项研究——一项来自 Ai2，记录了 Olmo 3 的开发过程；另一项来自 Epoch AI，研究了各前沿实验室公开的成本文档——它们将用于研发而非最终模型的算力估计为约 80%（存在显著误差范围）。在一个研发占据大部分算力的世界里，中国体系的设计宗旨是快速向同行学习，避免重复投入研发算力或基础设施工作。这远非完美，但它是构建 LLM 时最接近开源软件（OSS）生态系统的类比。

关于 AI 的公开讨论一直强调模型成本高昂，这自然会让被动读者认为这些算力仅用于最终产物本身——正如我们在 DeepSeek V3 上看到的那样。分享这一点让我重新审视开源 AI 的核心问题，以及它为何缺乏类似开源软件（OSS）用户反馈回创作本身的循环——这种循环遵循林纳斯定律：“足够多的眼睛，所有 bug 都是浅显的”，从而创造巨大价值。OSS 的这种自我强化使得大规模部署成为成本最低的结果——所有用户共同分担修复 bug 和添加功能的成本。而在开源 AI 中，几乎所有成本都落在模型开发者身上。

与此同时，开放发布模型确实能带来巨大的成本降低效益，但这些效益仅有助于降低开发者自身未来的开发和部署成本，更重要的是惠及整个生态系统。开放的 AI 模型、工具、基础设施以及介于其间的一切，都是开发成本的降低，而非同类解决方案或产品上的即插即用式成本降低。如果有人打算直接使用现成的 AI，几乎不做迭代或内部开发，那么使用开放模型几乎总是更昂贵。使用封闭、集成、托管的解决方案，通过通用使用场景的规模经济实现低价。开源生态系统只能尝试在持续性能提升中镜像 OSS 式的财务和性能收益。

中国实验室通过极其详尽的技术报告和实验室之间有意的知识共享，有效地为其同行公司降低了想法风险，使它们不必投入同样多的资源。要使这一点奏效，当前 AI 公司分支开源工具并将其演变为仅内部版本的常态可能需要逐渐消失。开源 AI 公司以企业协议或内部工具实现更好性能作为卖点，这太常见了——因为人们最初使用的完全开放工具在可及性上已落后。一个典型例子是 MoE 模型的大规模 RL 训练——目前没有真正开放的方案。尚不清楚像 Thinking Machine 的 Tinker 和 Prime Intellect 的 Lab 这类支持开源但部分封闭的工具，能否足够开放以使开放生态系统的优势得以维持。堆栈越开放，信息共享越多，未来迭代的成本就越低。

导致公司分支开源工具以制作内部版本的相同逻辑，也解释了为何没有一个共享的、所有人都基于其构建的单一基础模型。构建当今最好的模型变成了一门艺术：整合你的硬件、数据和基础设施，同时以相对较高的速度演进所有这些要素，以便跟上性能前沿。鉴于所有迹象都表明 LLM 将在未来几年持续稳步提升性能，短期内期望这种均衡状态发生变化似乎不太可能。这正是我撰写关于开放模型联盟不可避免性的文章的原因——这种共享资源效率更高，并且可能成为未来在前沿规模上使用开放模型进行竞争的唯一财务上可行的方式。

值得注意的是，封闭实验室当然也会观察开放前沿模型公司的研究并从中受益，但假设封闭实验室在开发树上领先几个月，它们通常自然从共享见解中获益较少。开源社区越强大，各公司就越有成本动机在相同的帕累托性能曲线上保持相对接近。这种对开发成本差异（即过程导向技术，而非所有实验室直接构建的共享基础）的认识，源于我在最近中国之行总结中收到的一个反馈问题。问题是：“中国生态系统是否有机会收敛到一个单一基础模型以节省成本？”这个问题的后续是：中国的开放权重公司是否在以具有战略意义的方式使用开源。这里还有许多更有价值的问题可以问，尤其是在试图理解不同生态系统的运作模式时。

中国的基础模型开发模式

我发现以下由 Bill Gurley 对《Breakneck》作者 Dan Wang 和《Apple in China》作者 Patrick McGee（这两本书我强烈推荐——必读）进行的访谈，在思考美国和中国技术文化之间的最大差异时非常发人深省。在我开源 AI 的历程中，我接触到了很多这些差异。过去一年，中国 AI 生态系统中涌现出一种深深渴望影响西方受众和思维的冲动。这显然是 SAIL 团队在我们最近行程中获得如此多访问权限的重要背景——并非 AI 生态系统中的任何人都会与这么多公司的高层领导交谈。

译自 Interconnects · Nathan Lambert · 录于二〇二六年五月十二日