再见 Ai2

Farewell Ai2

二〇二六年六月二日 · 英文原文

摘要

Nathan Lambert 宣布离开艾伦人工智能研究所（Ai2），回顾其参与 Olmo、Tülu 2、Tülu 3 及 Olmo 2/3 等开放语言模型项目的经历。他指出，尽管这些模型在性能上并非前沿，但通过开放研究、后训练配方（如 RLVR）和社区建设产生了广泛影响。Lambert 强调开放生态系统对 AI 安全、人才培养和政策制定的重要性，并计划继续推动开放模型的后训练与生态协调。

我即将离开艾伦人工智能研究所（Ai2）。在这里，我有幸参与 Olmo 模型的工作，得以成长、学习，并产生广泛而持久的影响。这篇文章试图反思：为什么我们的工作具有影响力——尽管在性能上（即便在相同规模范围内）显然远非前沿——以及这如何反映了当今 AI 领域不同的影响力路径。首先，我昨天与公司分享了以下便条：

亲爱的 Ai2：

如大家所知，今天是我在 Ai2 工作的最后一天。我加入 Ai2 很大程度上是个意外。我在 2023 年夏威夷的 ICML 会议上遇到了 Luca，并意识到如果我有机会加入，我的开放后训练工作将能大幅提升。当我收到录用通知时，这绝对是一个无需犹豫的决定，这里的环境如此热情且令人振奋。这是一段改变我人生的美妙旅程，我为我们共同完成的工作感到无比自豪。Ai2 的核心拥有卓越的科学文化，我很高兴看到这种文化得以延续。我感到非常幸运能在这里工作，并且我个人从所有为培育这种文化和环境而辛勤付出的人身上获益良多。这是且一直是一项团队努力。这包括那些与我互动最多只是在咖啡机旁短暂交谈的人们。我从 Ai2 员工以各种方式为使命而付出的努力中汲取了巨大的能量和激情。我已经直接感谢了 OE 团队的大部分成员，但我也想感谢所有为此做出贡献的其他人。法务、IT、通讯和办公室团队在支持和提升我们的研究工作方面都做得非常出色。这些工作常常被遗忘，不在聚光灯下，或只在最后一刻才被想起，但它们对于实现我们的目标都至关重要。我很高兴未来几年能继续造访美丽的 Northlake 办公区。

即使我即将离开，我对 Ai2 的使命比以往任何时候都更加兴奋。Ai2 在学术界和工业界之间占据着一个非常罕见的利基市场，我们可以在那里探索并影响我们这一生中最重要的技术。以开放的方式做到这一点，是确保技术安全地惠及所有可能受益者的最佳途径。Ai2 需要保持尽可能大的雄心，努力影响 AI 的前沿和该领域最大的问题。不要回避这些挑战——随着 AI 变得越来越地缘政治化、对社会更具破坏性，并成为经济的核心，世界需要独立的声音。

我将继续在这个领域工作，努力让开放生态系统更加协调、更有用。所以，当我尝试新事物时，请不要成为陌生人。你们随时可以通过 nathan@natolambert.com 联系到我，我大部分时间仍会住在西雅图。

Nathan

我爱过，并将继续爱着 Ai2。Ai2 有一种深厚的文化，关心研究过程、分享的产出，以及最重要的是，从事这项工作的人。这就是为什么这个机构能培养出无数优秀的人才，他们走出去，在整个研究社区传播福音。这种核心文化将在重建过程中得以延续，并且有充足的资源在 AI 的各个领域进行有影响力的研究。

在 Ai2 的最后两年里，我做了很多有意义的工作。当然，Olmo 是重中之重，也是我的优先事项，但抽出时间在 Interconnects 上持续写作、周末为 ATOM 进行密集学习，以及完成有趣的 RLHF 书籍，这些都构成了一份让我自己都惊讶于如何完成一切的清单。我显然对工作非常投入，但并没有因此失眠或损害整体健康。这是正确的长期方法。这份令人印象深刻的清单，是我对无关紧要的事情坚决说“不”，并让所有工作都得以面世的结果。过去几年里，我没有一个中等规模的项目是失败的。这让我怀疑自己是否承担了足够的风险。这表明你确实可以用时间做很多事情，而实际上更难的是找到正确的问题和环境去做这些事。许多人处于他们的工作永远不会公开，或者被迫不断更换主题的环境中。

从零到英雄

首先，我想简短回顾一下我通往 Ai2 的路径，以说明 Ai2 对我来说既是一个执行的故事，也是一个成长的故事。我本科学习电气工程，专注于线性系统数学和微电子学。我被加州大学伯克利分校的 EECS 博士项目录取，研究微机电系统（MEMS）。2017 年 8 月，我来到伯克利，意识到 AI 显然是我应该做的事情。我曾询问 Sergey Levine 或 Pieter Abbeel 等人是否愿意指导我——他们拒绝了。我将所有精力投入到尽可能多地学习 AI 知识中。2018 或 2019 年，我有幸得到 Sergey 一位博士后的指导。我全力以赴，争取研究经费，争取发表 AI 论文。这个过程在我 2022 年博士毕业时取得了成果：我得以进入伯克利 AI 研究（BAIR）大楼，并在系里开展合作。这是一条坎坷的道路。

我想进入工业界的研究机构，找一份薪水不错且拥有学术自由的工作，比如当时的 FAIR 或 Google Brain。HuggingFace 是唯一符合条件的工作，我很容易就答应了。我于 2022 年 5 月加入 HuggingFace，并在那里虚度光阴，直到 ChatGPT 发布。我利用自己的 RL 背景写了一篇关于 RLHF 的博客文章，并迅速走红。HuggingFace 认为我应该围绕这个成功组建一个团队。2023 年，我学习了 NLP 和语言模型。我玩得很开心，并建立了一个初步的社区。由于远程工作且时差巨大，我感到筋疲力尽。我在夏威夷的 ICML 会议上遇到了 Luca Soldaini，当时我正在做一个关于 RLHF 的教程，他们告诉我 Ai2 正在招聘。我得到 Ai2 的工作，很大程度上是因为我的热情，以及我表达了想做很多在他们听来很酷但可能没人会去做的事情（与 RL 相关）。我的面试远非十拿九稳——能获得这份工作真是太棒了！

我于 2023 年 10 月开始在 Ai2 工作。我远程工作了一段时间。我进行常规研究，创建了第一个奖励模型评估基准 RewardBench。这是一个坚实的成功，但远不及预训练团队准备发布第一个 Olmo 时那样令人兴奋。我帮助指导 Ai2 如何良好地发布模型，帮助 Tülu 2 项目落地（这是第一个在 70B 规模上公开做好 DPO 的模型）。第一个 Olmo 于 2024 年初发布，我仅仅通过尽力提供帮助和做一些基本的后训练，就勉强挤进了论文作者名单。我已经很擅长关注哪些项目才是真正重要的。那年夏天，我开始召集大家做一个“大型前沿后训练项目”。这成为了 Tülu 3，于 2024 年秋季发布，是我有史以来最喜欢的项目之一。目标是使用 Llama 3 自己的基础模型，在其后训练上击败它。团队士气极高，执行也非常及时，使我们能够在论文中首创“可验证奖励强化学习”（RLVR）这个术语。为了完成 Tülu 3 和 Olmo 2 的后训练，我付出的疯狂努力让我在公司发送的 Slack 消息比任何人都多出 40%，并为我赢得了“牧猫人”的称号。

2025 年则简单得多。我们对推理模型的反应太慢了，尽管我们用 Tülu 3 做过类似的事情，但有时事情就是这样。最初我们想在 2025 年 6 月或 7 月发布 Olmo 3。这显然没有实现，但我们得到了一个微小的机会来训练一个更大的模型，并且它真的成功了。我们精准地把握住了机会。自从 Olmo 3 发布以来，很明显一些变化即将到来，我个人在那之后再也没有启动过大型后训练项目。许多其他人在 2026 年春季完成了出色的工作。

这一切让我今天站在这里，向你们展示我在 Ai2 的故事中，只有大约一半是我广为人知的，其余部分则是在积蓄势能。在职业生涯中，通常需要花费一年时间来建立关系和方向，才能取得真正巨大的成功。我加入 Ai2 时几乎是个无名小卒，但我加入了一个愿意学习我从 HuggingFace 带来的技能的团队。由于媒体的运作方式，我常常觉得对于 Ai2 的成功，我得到了超出应得的认可。像 Tülu 3、Olmo 2 和 Olmo 3 这样的项目感觉像是几代人共同努力的成果。这些项目中个人取得的成功和突破是巨大的——并且能在如此长的时间内维持这种状态，是极难复制的。整体远远超过了部分之和。

在过去的几个月里，我多次听到有人说，如果不是因为我的写作，他们不会知道 Ai2。这样的说法有些夸张，但部分属实，并且再次强调了当今建立关系和传播信息的重要性。当你写下一个可行的计划时，世界就会朝着这个计划倾斜。当你说服人们这将会发生时，它只会变得更加可能。愿景和令人信服的解释是科技行业最稀缺的东西之一。通常，构建东西很容易，而解释它却很难。如果没有人知道你的工作，其价值往往接近于零。建立声誉在很大程度上就是与那些会接受你工作的人建立关系。

反思这一切，我的职业生涯经历了一条惊人地线性、逐步成功的道路。我认为大多数人在职业生涯的头十年里，都在寻找一个像 Ai2 这样好的机会，而且你并不总能抓住它。有一些方法可以创造更多机会。我之前讨论过，我的崛起很大程度上归功于，在 AI 兴趣空前高涨的同时，许多更资深、更知名的科学家被吸引到封闭的生态系统中。这造成了一个权力真空，我和其他几位我认为属于我“这一代”的杰出科学家得以迅速成长。

Interconnects AI 是一份由读者支持的出版物。考虑成为订阅者。

公共科学家的角色

通过我在 Ai2 和 Interconnects 的工作，我将自己的角色和使命总结为努力实现三件事：

为前沿模型的演进提供清晰度。当科学已经跟上时，这最容易做到，但即使只是将科学视角应用于模型的变化方式，对于在更广泛的 AI 生态系统中建立信任也非常有用。
创建一个充满活力且多样化的开放（模型）生态系统。这对于减轻 AI 的某些风险至关重要，特别是权力集中和研究前沿安全时的短视，这已经激励了我 3-4 年。风险并未减弱。
建立能够创造人才和思想以推进上述使命的机构，并培养那些愿意倡导并建设他们相信的未来的、以使命为导向的个人。

AI 是一个宏大的问题，不是我一个人能完成的，所以我需要建立品牌以在噪音中脱颖而出，并吸引志同道合的人。在我状态最好的时候，我有很多途径可以产生影响。我帮助开放研究人员研究有影响力的问题——不浪费他们在 AI 热潮中拥有的宝贵算力和时间。我帮助政策制定者了解真相。我构建人们使用的模型。我讲述让人们微笑的故事。我保持这份清单的广泛性，以便自己保持动力。

我看到这一切都在继续，并且在过去几个月里反复思考其更广泛的影响。听到 Andrej Karpathy 加入 Anthropic 的消息，促使我最终分享更多我的观点：

长期以来，学术研究人员处于新技术前沿一直是一种良好的社会平衡。中立、无偏见的科技人员是将新思想传播给世界的人。随着 AI 研究速度的加快，它也正在走向闭门造车。科技行业已经播下了不信任的种子，而现在他们却试图告诉世界即将发生的惊人变化。这对美国的一种社会契约形式来说是一个巨大的损失。历史上，科学家一直在帮助社会理解新技术。科学文化中存在一种公共服务，我希望看到它继续下去。这种状况因 FOMO（错失恐惧症）而加剧，尤其是经济上的驱动，我看到许多以前想成为教授的人——很可能内心深处仍然想——感到需要随大流，在工业界的一个角落里追逐金钱。我理解，我也在为此挣扎。对于那些有安全网的人来说，选择逆流而上，尝试为需要不同事物的人创造一些好东西，将会获得巨大的回报。对我来说，这就是构建有趣的、完全开放的模型，以展示你可以用各种规模的开放权重做些什么。

是的，AI 的近期未来由前沿决定，但其长期轨迹仍然深深包含学术机构和开放科学。知识总会扩散，但扩散给谁？截至目前，我认为中国有望在几年内成为全球 AI 研究的中心。研究的中心是思想易于获取、快速传播并得到培育的地方。美国似乎正在瓦解许多机构和关系。最大的回报归于那些构建差异化事物的人，至少在声誉上是如此，而很多人并没有被告知这条道路的存在。

详细说明一下，我并不责怪今天进入工业界的任何个人。在过去几周的求职，或者说职业探索中，我自己也差点这样做。这是一个系统性问题，科学家无法轻易获得支持来采取大胆的立场，尤其是那些围绕公共利益设计的立场。更进一步说，只有封闭的前沿实验室内的研究才重要，这是非常短视的。是的，有一种研究只能通过巨大的计算资源才能完成，它们将直接影响当今最具革命性的工具。但是，我认为对于很多人来说，在其他地方做好事的相对机会更高。开放研究将永远是设定人们用来理解 AI 的语言的标准。它永远是下一代接受培训的方式——即使它落后于工业界已经构建的东西。它将是孕育新的、长远想法的生态系统。如果不投资于这个开放生态系统，所有这些循环都将受到阻碍。

归根结底，我现在的大部分角色就是展示在这个领域产生影响的路径。展示聪明的、中等规模的开放模型如何能够影响现实世界中的问题。展示政策制定者和教育者如何需要开放研究来围绕 AI 构建社会的其余部分。这也是一个有趣的角色！看到这盏灯的光芒进一步减弱，变成几乎完全熄灭的火焰中最微弱的余烬，对我来说将是非常可悲的。即使研究速度进一步放缓，即使像我这样留下来的人为了家庭而收到了无法拒绝的财务报价，开放研究的火炬也永远不会完全熄灭。它是科学教学和实践的核心。下一代正在到来，他们只是在寻找指导和榜样。

下一步是什么

我认为 Ai2 最好的工作是研究基础设施。公开构建配方使无数研究人员能够对训练过程提出非常具体的问题。更广泛的社区需要这些研究人员，因为 Ai2 永远无法独自回答所有有趣的问题。最近几个月，我最大的乐趣之一是访问一所顶尖的 ML 大学，听到许多研究生说他们正在基于 Olmo 进行构建。世界就应该这样运作！

展望未来，我仍计划在类似的领域运作，为开放科学而战，设想开放模型生态系统的未来可能是什么样子，并尽我所能使社会平稳过渡到 AI 原生时代。最让我兴奋的是，你可以针对特定任务训练中等规模的开放模型，使其成为补充前沿模型的有用工具——在价格上取得巨大优势。我希望投资于开放模型的生态多样性以及构建者之间的协调。

考虑到我过去的关注领域，这并不令人惊讶：我正在关注所有实验室（开放和封闭）的发布节奏，以及它们如何在非常成熟的新后训练方向（在线策略蒸馏、智能体工作流等）上快速爬坡。很明显，完全开放的后训练配方比以往任何时候都落后，并且差距还在拉大。我想解决这个问题。目前还不完全清楚我今年是否会这样做，但我会尝试。为了最好地做到这一点并执行，主要是个人层面，我需要一个新的开始和全新的视角。我将在接下来的几个月里仔细构建我下一步要做的事情，并渴望在可能的时候分享更多。

我在 Ai2 的一位亲密队友在告别卡片中与我分享了这句名言，我发现它非常适合我接下来的方向。

生活的目标不是站在多数人一边，而是避免发现自己身处疯子的行列。 —— 马可·奥勒留

感谢大家一直以来的支持。

译自 Interconnects · Nathan Lambert · 录于二〇二六年六月二日