Interconnects · Nathan Lambert

我一直在做的事：ATOM报告、后训练课程、完成书籍与持续研究

What I’ve been building: ATOM Report, post-training course, finishing my book, and ongoing research

二〇二六年五月十二日 · 英文原文

摘要

ATOM 报告更新了开放语言模型生态系统的数据和分析，介绍了相对采用度量（RAM）用于评估模型采用情况，显示近期中国模型（如 Moonshot、Z.ai、MiniMax）及 Gemma 4 的早期数据。RLHF 书籍已完成并开放预购，配套后训练课程在 YouTube 免费提供。技术研究方面，TurnWise 论文探讨单轮与多轮语言模型能力差距；基于自我反思的元强化学习用于 Agent 搜索，将 RLVR 视为元学习问题。

这篇文章汇总了我近期的一些工作——它们不值得单独写一篇 Interconnects 博文，以及我为何投入时间、取得了什么成果。

ATOM 报告：衡量开放语言模型生态系统 RLHF 书籍已完成并开放预购！ 我正在制作的一门后训练课程 近期技术研究

1. ATOM 报告：衡量开放语言模型生态系统

https://arxiv.org/abs/2604.07190

作为 ATOM 项目备忘录（可以说是一份宣言，主张美国应投资开放模型——最初于 2025 年 8 月发布）的配套材料，我们发布了一份更新版技术报告，其中包含我们在开放语言模型生态系统中的最新数据、分析和叙事。

ATOM 报告详细介绍了 Florian 和我用来追踪开放生态系统的方法。它涵盖了 GPT-OSS 的崛起、推理市场份额、中国中等梯队玩家（如 Moonshot、Z.ai 和 MiniMax）的影响力、美国在开放模型方面的进展迹象，以及更多内容。特别是，论文详细介绍了我们对相对采用度量（RAM）的更新，我们用它来以时变和规模归一化的方式评估近期模型的采用情况。

以下是近期（主要是中国）模型在 RAM 评分上的一个样本。RAM 评分的设计使得得分 >1 表示该模型在当时有望成为其规模类别中有史以来下载量前十的模型。它将混乱的格局简化为一个易于解读的数字！

我们还利用这些数据分析了近期发布的 Gemma 4，该模型显示出惊人的早期采用数据。我们会持续关注！

订阅（不定期更新的）ATOM 项目 Substack，获取更多此类更新！

2. RLHF 书籍已完成并开放预购！

http://rlhfbook.com/

这本书的目标是写出我当初开始学习语言模型后训练时希望拥有的那本书。这个项目我已经想了很久。我在 2024 年 5 月 20 日购买了域名 rlhfbook.com，并开始认真对待。现在终于完成了！上周，它已交付给 Manning 团队进入生产流程。这意味着内容编辑已完成，大约两个月后将付印。与此同时，我正在开发配套的代码和课程（详见下文）。你可以在 Amazon 或 Manning（目前更便宜）上预购。

3. 我正在制作的一门后训练课程

https://rlhfbook.com/course

我这本书的目标是成为那些希望从后训练初学者进阶为专家的人的核心资源。它不一定是入门级书籍，但随着 AI 模型变得更强，它也需要成为一个社区建设的工作。我为了将范围从一本书扩展为完整的学习体验而迈出的第一步，是制作一系列讲座视频。这些讲座将在 YouTube 上免费提供，并包含社区问答（作为讲座之间的独立视频）。你可以观看下面的第一批视频，并在 YouTube 上订阅以获取后续内容。今年夏天，我将在书籍平台基础上进一步建设，开发书籍代码库并举办线下活动。

欢迎视频 & YouTube 播放列表 RLHF 与后训练概述 | RLHF 书籍课程，第 1 讲 RLHF 基础、IFT、奖励建模、拒绝采样 | RLHF 课程第 2 讲理解用于 LLM 的策略梯度强化学习算法 | RLHF 课程第 3 讲为 LLM 实现强化学习算法 | RLHF 课程第 4 讲

4. 近期技术研究

Interconnects 的长期读者知道，这个博客的根源在于解释该领域的基础研究。这有两个方面的巨大价值。首先，随着 AI 发展极快，越来越多的人需要能够解析研究，以便在技术上做出正确的判断。研究是某些重大变革来临前的唯一早期预警。其次，它有助于提升我合作者——那些与我共度时光的人——的职业生涯！

基于此，请看看下面我有幸参与的两篇论文。

https://arxiv.org/abs/2603.16759 - TurnWise：单轮与多轮语言模型能力之间的差距，Graf 等人，2026 年这项工作探索了各种模型在多轮对话场景中的优势、如何创建训练数据来改进它，以及后训练中的其他特性。我的兴趣已经完全转向 agent，我认为多轮交互是一个非常重要的用户界面问题——在不走捷径的情况下，我应该向用户展示哪些信息来尽快完成任务？

https://arxiv.org/abs/2603.11327 - 基于自我反思的元强化学习用于 Agent 搜索，Xiao 等人，2026 年这篇论文将使用 RLVR 解决难题视为一个元学习问题，其中应利用先前尝试的上下文来指导未来的 rollout。从某些方面看，这是一个非常明显的想法，因为目前大多数用于 LLM 的 RL 仍然非常基于同策略（on-policy），但很幼稚。模型从参数中的近期试验中学习，而不是从上下文中学习。这项研究为大量其他近期关于如何制定 RL 以解决不同形式的持续学习的工作提供了基础。另一篇很棒的相关论文是《在测试时学习发现》。

发表评论

未来几个月我将前往中国（然后希望是华盛顿特区），以更深入地了解世界如何看待 AI 的进步。我很期待与更广泛的人群交流，这与我专注的技术工作所接触的人群不同。一如既往，感谢阅读！

译自 Interconnects · Nathan Lambert · 录于二〇二六年五月十二日