Apollo Research · 安全

Apollo 2026年5月更新

Apollo Update May 2026

二〇二六年五月十四日 · 英文原文

摘要

Apollo Research 在旧金山 Salesforce Park 附近设立办公室，目标年底前扩至10人以上，并招聘策划科学、评估、软件工程及监控岗位。研究重心转向策划科学，探究长周期RL（强化学习）下模型失调偏好与监督博弈的scaling趋势。监控团队推出Watcher产品，用于编码agent的实时监控与故障分析。治理团队聚焦失控、内部部署及自动化AI研发，计划2026年6月开设华盛顿特区办公室。

Apollo 现已设立旧金山办公室

新的 Apollo 旧金山办公室位于 Salesforce Park 附近。目前旧金山办公室有三人，目标是在年底前扩展到 10 人以上。

我们正在为旧金山办公室招聘多个岗位，包括：

策划科学：研究科学家
评估：研究科学家/工程师
软件工程：全栈和后端
监控：应用控制研究员和产品工程师

我们可以协助办理签证并支持内部调动。

策划研究

我们的研究议程已从策划评估转向策划科学。我们想要理解在_未来_系统中，策划行为_是否_以及_如何_出现。这意味着要研究 scaling 趋势（例如情境意识增强、在更长周期任务上进行强化学习）如何塑造模型行为，而不仅仅是评估今天的模型。评估对于生成关于当前训练机制的假设仍然有价值，但现在已成为我们的次要优先事项。它们无法告诉我们下一代模型会做什么。

我们的核心问题是：

未来的模型是否会默认具有失调的偏好？
针对失调偏好的训练是否会失败？

我们预计对齐未来模型将比对齐当前模型困难得多。长周期 RL 可能会推动模型走向微妙的欺骗、操纵、违反规则和寻求资源。我们目前正在研究失调是否在经验上随着长周期 RL 而不利地扩展。

失调的检测和纠正也将变得更加困难，主要是因为模型将拥有更强的情境意识。我们已经证明，对监督的广泛推理可以在前沿训练中自然出现，并且模型在推理监督时显得更加对齐。在足够的规模下，对能力强的模型进行 RL 可能会收敛于监督博弈。对于监督博弈，关键的开放问题是如何可靠地检测监督博弈（尤其是在思维链可读性和忠实度下降的情况下），它在训练期间何时以及如何出现，以及它如何影响对齐训练。这些问题如今比一年前在经验上更容易处理，因为我们现在有自然发生的案例可供研究。

评估活动仍然是议程的核心。 我们需要观察前沿模型的认知和行为，以区分那些在模型间一致出现的模式与特定于单个系统的特性。这需要从简单的抽查到完全逼真的场景等一系列评估套件。反过来，基础研究的见解又会反馈到我们可以在前沿模型上运行的更好评估中。

我们正在为伦敦和旧金山的策划研究团队招聘。如果你深切关心如何让 AI 发展顺利，我们有策划科学基础研究以及与前沿 AI 开发者合作设计和运行高影响力评估的开放职位。

监控

Apollo 现已成立一个监控团队，专注于构建针对编码 agent 故障模式的监控器。这些故障模式涵盖从即时的安全问题（如 agent 泄露秘密或超出预期范围行动）到更具前瞻性的问题（如策划和监督颠覆）。该团队分为研究和产品两个子团队，两者相互促进。我们构建监控器和控制策略，将其转化为用于实际 agent 部署的产品，利用部署反馈进行改进，并发布我们的发现以帮助 AGI 公司改进其自身的监控系统。

产品：Watcher 允许安全团队和工程师大规模控制和保护 agent 部署。可以将其视为编码 agent 的 MDM 和 EDR 混合体。安全团队设定硬边界，工程师配置其余部分。Watcher Live 是一个实时监控器，用于识别和阻止不良行为，或将 agent 引导回正轨。Watcher Analyze 是一个可观测性层，用于查看所有当前和过去的 agent 部署，分析故障，并在需要时获得通知。愿景是每个编码 agent 故障要么被立即阻止，要么在事后进行分析，以持续改进组织的安全态势。

研究： 我们希望变得极其擅长构建各种类型的监控器，从强大但昂贵到廉价且快速，从专用到通用。我们已发布了一份可扩展监控研究议程，其中包含关于我们研究雄心的更多细节。我们打算对我们的工作保持开放，并定期发布包含中间分析、研究论文以及大规模部署分析风险报告的博客文章。

我们正在为旧金山和伦敦的监控团队招聘。如果你对应用控制研究或构建产品以使实际 agent 部署更安全感兴趣，我们期待你的来信。

治理

Apollo 的治理团队致力于将技术性的 AI 安全问题转化为政策和制度应对措施。该团队专注于三个领域：失控、内部部署以及自动化 AI 研发。

失控。 我们进行威胁建模，为高风险领域（如国家安全）构建缓解方案的概念验证，并制定政策应对措施。迄今为止，我们最全面的公开成果是《失控剧本：程度、动态与准备》（博客），Charlotte 领导了《2026 年国际 AI 安全报告》中关于失控的章节。

内部部署。 前沿 AI 公司越来越多地在内部使用自己的模型，这引发了独特的风险管理和法律问题。我们发布了一份面向公众的报告，题为《闭门之后：内部部署治理入门》（博客），作为该主题的入门读物；贡献了剑桥评论章节，解读了欧盟 AI 法案对内部部署的覆盖范围；并与 Yoshua Bengio 合著了一篇 TIME 杂志专栏，探讨国家安全和安全影响。

自动化 AI 研发。 在 2026 年第二至第四季度，我们预计将投入大量精力关注自动化 AI 研发的影响，特别强调 AI 交接：即人类将重大决策权移交给 AI 系统的过程。

华盛顿特区办公室。 为应对美国政府对我们工作显著增加的兴趣，我们将于 2026 年 6 月开设一个华盛顿特区办公室。该办公室将专注于提高与我们使命相关主题的情境意识，并帮助制定政策解决方案，特别是围绕策划、失控和内部部署对政府采购和美国国家安全的影响。

我们预计将在 2026 年第三至第四季度进行额外的研究、政策和国家安全人才招聘轮次。我们治理活动的公开概览可在此处找到这里。

译自 Apollo Research · 安全 · 录于二〇二六年五月十四日