UK AI Security Institute

资助60个项目推进AI对齐研究

Funding 60 projects to advance AI alignment research

二〇二六年五月十三日 · 英文原文

摘要

英国AI安全研究所（AISI）通过Alignment Project资助60个AI alignment研究项目，总金额达2700万英镑。首批受资助者来自42个国家466个机构的800多份申请中选出，涵盖数学、学习理论、经济学、认知科学等领域。新加入的合作伙伴包括OpenAI、Microsoft、澳大利亚AI安全研究所等，其中OpenAI提供560万英镑。项目示例包括LawZero的Scientist AI、耶鲁大学与MIT的机制与信息设计、斯坦福大学的能量守恒下降法（ECD）。下一轮申请将于2025年夏季开放。

资助 60 个项目以推进 AI alignment 研究 | AISI 工作

请启用本网站的 JavaScript。

资助 60 个项目以推进 AI alignment 研究

Alignment Project 欢迎首批受资助者，新合作伙伴加入联盟，总资助金额达 2700 万英镑。

—

2026 年 2 月 19 日

AI 系统正在快速发展，其潜力巨大。要发挥更强大 AI 的益处，我们需要确信，即使在复杂、高风险的场景中，强大的系统也会按照我们的意图行事。

AI alignment（对齐）是该挑战的一个关键子集。Alignment 研究探讨如何构建和部署遵循人类意图、避免有害副作用、并保持在人类监督和控制之下的 AI。随着系统变得更加强大和自主，适用于当今模型的方法可能在未来不再有效。

这就是我们设立 Alignment Project 的原因——这是一个全球性的资助计划，旨在加速 alignment 研究和创新的进展。今天我们宣布首批 60 位受资助者，以及新的合作伙伴和 1200 万英镑的额外资金，使 alignment 研究的总支持金额达到 2700 万英镑。

不断壮大的联盟

Alignment Project 于 2025 年 7 月启动，初始资金超过 1500 万英镑，由包括加拿大 AI 安全研究所、CIFAR、Schmidt Sciences、Amazon Web Services (AWS)、Anthropic、Halcyon Futures、Safe AI Fund、英国研究与创新署以及高级研究与发明局 (ARIA) 在内的国际联盟支持。

我们现在欢迎 OpenAI、Microsoft、澳大利亚工业、科学和资源部 AI 安全研究所、AI 安全战术机会基金、Sympatico Ventures 和 Renaissance Philanthropy 加入。

这些合作伙伴共同使 alignment 研究可用的总资金达到 2700 万英镑，其中包括 OpenAI 提供的 560 万英镑。这笔资金将有助于消除历史上限制 alignment 研究的障碍。它支持大规模压力测试想法所需的人员、时间、算力和协作。

宣布首批 60 位受资助者

Alignment Project 首轮资助引起了极大关注。我们收到了来自 42 个国家 466 个机构的 800 多份申请。

在评估了每份提交材料的相关性、可行性、创新性、可操作性和团队能力后，我们筛选出 101 份提案进入完整申请阶段。入围的申请者随后与我们的团队合作，完善其变革理论、执行计划和预算，之后由专家评审员和审核委员会对完整提案进行深入评估。

这 60 个成功项目涵盖了数学、学习理论、经济学、认知科学等领域，反映了我们的信念：alignment 的进展需要多学科的努力。（受资助者完整名单）

以下是三个能体现该组合多样性的项目：

1. Scientist AI

由 Yoshua Bengio 创立的非营利组织 LawZero 正在开发一个名为 Scientist AI 的安全设计 AI 系统。该项目聚焦于两个相互关联的想法：改进模型判断信息可靠性的方式，以及使模型的推理更易于人类检查。

Scientist AI 包含一个"情境化"系统，用于追踪网络数据的来源和可信度，帮助模型区分事实与观点，并降低从人类话语中习得不良行为的风险。它还采用了一种证明者-验证者风格的设置，包含两个组件：一个提出假设，另一个进行检验。通过让这些组件以自然语言进行通信，该系统旨在使其推理更加透明。验证者还经过训练以最小化自主性，从而降低欺骗或隐藏议程等风险。

通过探索可能使未来系统更易于监督、更不易产生操纵行为的具体设计选择，这项工作为对齐超级智能系统奠定了必要的基础。

2. 用于对齐和控制的机制与信息设计

Dirk Bergemann（耶鲁大学 Douglass and Marion Campbell 经济学教授）、Stephen Morris（麻省理工学院 Peter Diamond 经济学教授）及其同事正在将机制与信息设计（即关于规则、激励和信息的经济学）的工具应用于对齐和控制高级 AI 的问题。

该项目旨在构建一个更系统的框架来平衡能力与安全性，并围绕已部署的 AI 系统设计制度和"游戏规则"。它借鉴了两条线索。首先，它模拟 AI 系统的行为如何随时间适应于用户偏好，以及这会产生怎样的权衡。其次，它研究"记忆设计"，因为 AI 系统可以被构建为记住或有意遗忘，这可能会创造出在纯人类环境中不存在的行为塑造新方式。这项工作旨在为政策制定者和 AI 开发者提供原则性的工具，以在 AI 系统变得更高级并嵌入复杂系统时管理其行为。

3. 用于提高 AI 可预测性的精确优化与对称性破缺

Eva Silverstein 和 Surya Ganguli（斯坦福大学）正在研究使 AI 训练更具可预测性的方法，其长期目标是使模型更容易被引导至更安全的结果。

优化器是训练任何现代 AI 系统的关键部分。当今的优化器可以产生强大的模型，但很难预测它们会收敛到哪个解。他们的方法——能量守恒下降法 (ECD)，由 G. Bruno De Luca 和 Silverstein 开发——其设计使得行为遵循已知的概率分布，这可以使现代 AI 系统的训练结果更易于预测和影响。该项目将在有意义的规模上测试 ECD，包括 transformer attention 块中的一项关键技术变更是否能加速收敛并提高性能。他们还将研究这种可预测性是否能转化为实际控制，例如将训练引导至更复杂、更对齐的解，而不是更简单、未对齐的解。

随着 AI 模型变得更加强大，以有原则且可理解的方式预测和引导训练动态变得越来越重要。