一声棒喝,本不立文字
偏要著録,已是二义

UK AI Security Institute

资助60个项目推进AI对齐研究

Funding 60 projects to advance AI alignment research

二〇二六年五月十三日 · 英文原文

英国AI安全研究所(AISI)通过Alignment Project资助60个AI alignment研究项目,总金额达2700万英镑。首批受资助者来自42个国家466个机构的800多份申请中选出,涵盖数学、学习理论、经济学、认知科学等领域。新加入的合作伙伴包括OpenAI、Microsoft、澳大利亚AI安全研究所等,其中OpenAI提供560万英镑。项目示例包括LawZero的Scientist AI、耶鲁大学与MIT的机制与信息设计、斯坦福大学的能量守恒下降法(ECD)。下一轮申请将于2025年夏季开放。

资助 60 个项目以推进 AI alignment 研究 | AISI 工作

请启用本网站的 JavaScript。

A

A

Image 1Image 2关于研究资助博客联系

职业

Image 3Image 4首页关于研究资助博客

职业

博客组织

资助 60 个项目以推进 AI alignment 研究

Alignment Project 欢迎首批受资助者,新合作伙伴加入联盟,总资助金额达 2700 万英镑。

2026 年 2 月 19 日

AI 系统正在快速发展,其潜力巨大。要发挥更强大 AI 的益处,我们需要确信,即使在复杂、高风险的场景中,强大的系统也会按照我们的意图行事。

AI alignment(对齐)是该挑战的一个关键子集。Alignment 研究探讨如何构建和部署遵循人类意图、避免有害副作用、并保持在人类监督和控制之下的 AI。随着系统变得更加强大和自主,适用于当今模型的方法可能在未来不再有效。

这就是我们设立 Alignment Project 的原因——这是一个全球性的资助计划,旨在加速 alignment 研究和创新的进展。今天我们宣布首批 60 位受资助者,以及新的合作伙伴和 1200 万英镑的额外资金,使 alignment 研究的总支持金额达到 2700 万英镑。

不断壮大的联盟

Alignment Project 于 2025 年 7 月启动,初始资金超过 1500 万英镑,由包括加拿大 AI 安全研究所、CIFAR、Schmidt Sciences、Amazon Web Services (AWS)、Anthropic、Halcyon Futures、Safe AI Fund、英国研究与创新署以及高级研究与发明局 (ARIA) 在内的国际联盟支持。

我们现在欢迎 OpenAI、Microsoft、澳大利亚工业、科学和资源部 AI 安全研究所、AI 安全战术机会基金、Sympatico Ventures 和 Renaissance Philanthropy 加入。

这些合作伙伴共同使 alignment 研究可用的总资金达到 2700 万英镑,其中包括 OpenAI 提供的 560 万英镑。这笔资金将有助于消除历史上限制 alignment 研究的障碍。它支持大规模压力测试想法所需的人员、时间、算力和协作。

宣布首批 60 位受资助者

Alignment Project 首轮资助引起了极大关注。我们收到了来自 42 个国家 466 个机构的 800 多份申请。

在评估了每份提交材料的相关性、可行性、创新性、可操作性和团队能力后,我们筛选出 101 份提案进入完整申请阶段。入围的申请者随后与我们的团队合作,完善其变革理论、执行计划和预算,之后由专家评审员和审核委员会对完整提案进行深入评估。

这 60 个成功项目涵盖了数学、学习理论、经济学、认知科学等领域,反映了我们的信念:alignment 的进展需要多学科的努力。(受资助者完整名单

以下是三个能体现该组合多样性的项目:

1. Scientist AI

由 Yoshua Bengio 创立的非营利组织 LawZero 正在开发一个名为 Scientist AI 的安全设计 AI 系统。该项目聚焦于两个相互关联的想法:改进模型判断信息可靠性的方式,以及使模型的推理更易于人类检查。

Scientist AI 包含一个"情境化"系统,用于追踪网络数据的来源和可信度,帮助模型区分事实与观点,并降低从人类话语中习得不良行为的风险。它还采用了一种证明者-验证者风格的设置,包含两个组件:一个提出假设,另一个进行检验。通过让这些组件以自然语言进行通信,该系统旨在使其推理更加透明。验证者还经过训练以最小化自主性,从而降低欺骗或隐藏议程等风险。

通过探索可能使未来系统更易于监督、更不易产生操纵行为的具体设计选择,这项工作为对齐超级智能系统奠定了必要的基础。

2. 用于对齐和控制的机制与信息设计

Dirk Bergemann(耶鲁大学 Douglass and Marion Campbell 经济学教授)、Stephen Morris(麻省理工学院 Peter Diamond 经济学教授)及其同事正在将机制与信息设计(即关于规则、激励和信息的经济学)的工具应用于对齐和控制高级 AI 的问题。

该项目旨在构建一个更系统的框架来平衡能力与安全性,并围绕已部署的 AI 系统设计制度和"游戏规则"。它借鉴了两条线索。首先,它模拟 AI 系统的行为如何随时间适应于用户偏好,以及这会产生怎样的权衡。其次,它研究"记忆设计",因为 AI 系统可以被构建为记住或有意遗忘,这可能会创造出在纯人类环境中不存在的行为塑造新方式。这项工作旨在为政策制定者和 AI 开发者提供原则性的工具,以在 AI 系统变得更高级并嵌入复杂系统时管理其行为。

3. 用于提高 AI 可预测性的精确优化与对称性破缺

Eva Silverstein 和 Surya Ganguli(斯坦福大学)正在研究使 AI 训练更具可预测性的方法,其长期目标是使模型更容易被引导至更安全的结果。

优化器是训练任何现代 AI 系统的关键部分。当今的优化器可以产生强大的模型,但很难预测它们会收敛到哪个解。他们的方法——能量守恒下降法 (ECD),由 G. Bruno De Luca 和 Silverstein 开发——其设计使得行为遵循已知的概率分布,这可以使现代 AI 系统的训练结果更易于预测和影响。该项目将在有意义的规模上测试 ECD,包括 transformer attention 块中的一项关键技术变更是否能加速收敛并提高性能。他们还将研究这种可预测性是否能转化为实际控制,例如将训练引导至更复杂、更对齐的解,而不是更简单、未对齐的解。

随着 AI 模型变得更加强大,以有原则且可理解的方式预测和引导训练动态变得越来越重要。

下一步计划

在 alignment 研究中取得实质性突破需要多学科的努力,将不同领域的想法和工具应用于开放的研究问题。

首轮申请的数量和广度让我们对该领域在持续支持下所能取得的成就感到乐观。下一轮申请将于今年夏天开放。如果您对未来的征集或合作机会感兴趣,请访问 Alignment Project 网站 获取最新信息。

Image 5

Image 6Image 7

AI 安全研究所是科学、创新与技术部下属的研究机构。

AISI

首页关于我们资助职业

我们的工作

博客研究研究议程

联系

科学、创新与技术部Image 8 LinkedInImage 9: Twitter 图标 Twitter

网站政策

隐私政策

www.aisi.gov.uk 使用必要的 cookie 以实现网站功能和匿名使用分析。

我了解

Image 10

Image 11: 关闭图标

感谢分享 AISI 的工作!

我们已将此图片复制到您的剪贴板。

您可以在下一页将其粘贴到您的推文中

(使用 'ctrl +v' 或 'cmd + v' 粘贴)

继续推文 Image 12: Twitter 图标

Image 13

译自 UK AI Security Institute · 录于 二〇二六年五月十三日