一声棒喝,本不立文字
偏要著録,已是二义

UK AI Security Institute

我们的2025年度回顾

Our 2025 year in review

二〇二六年五月十四日 · 英文原文

英国AI安全研究所(AISI)所长Adam Beaumont发布2025年度回顾,总结该机构年内十项主要成就:发布首份《前沿AI趋势报告》,测试超30个前沿模型,推进评估科学(如贝叶斯GLM框架),与OpenAI、Anthropic合作发现并修复数十个生物安全漏洞,扩展开源评估工具Inspect及ControlArena,启动1500万英镑对齐项目、800万英镑系统性安全资助及500万英镑挑战基金,开展政府演练,推动国际测量网络升级,与Google DeepMind等深化合作,并强化自身团队建设。

我们的2025年度回顾 | AISI工作

请启用本网站的JavaScript。

A

A

图片1图片2关于我们研究资助博客联系我们

职业机会

图片3图片4主页关于我们研究资助博客

职业机会

博客组织

我们的2025年度回顾

英国AI安全研究所所长Adam Beaumont回顾了今年最大的成就。

2025年12月22日

在2025年即将结束之际,我回顾了AI安全研究所(AISI)所经历的非凡一年。当我几个月前刚加入时,我立刻被这里汇聚的独特人才团队所震撼——这些专家来自世界各地,拥有前沿AI领域的直接经验。他们响应号召,致力于在未来几十年里安全、稳妥地应对AI带来的挑战。

今年,这一使命以让我对组织和其中的人们深感自豪的方式变得更加清晰和加速。我们转向了更明确、更聚焦的职责范围,这体现在我们的新名称上:英国AI安全研究所。在技术科学、政府准备、国际合作以及我们提供给更广泛生态系统的工具方面,AISI以两年前几乎无人能及的方式提升了自身水平。

我们今年取得的一切成就都指向一个方向:严谨的科学转化为实际行动,使英国在实现AI巨大潜力的同时保持安全。

以下是十项成就,它们体现了我们今年工作的规模和方向。

**1. 我们发布了英国政府首份《前沿AI趋势报告》**‍

上周,我们发布了首份《前沿AI趋势报告》,基于AISI两年的测试,提供了关于前沿AI能力如何演变的清晰、基于证据的图景。

这对英国和AISI来说都是一个重要里程碑。我们首次为最先进AI系统实际能做什么提供了硬数据。我们强调的趋势——在网络、生物学、化学和软件工程领域能力快速增长,同时安全措施也在改进——突显了英国政府内部拥有这种能力的重要性。它为公众、政策制定者和我们的合作伙伴提供了基于数据而非猜测的AI进展清晰视图。

2. 我们测试了比以往更多的前沿AI系统

我们的技术团队现已测试了超过30个世界上最先进的模型。开发者继续与我们合作,因为我们的评估严谨、可复现且基于现实世界风险。仅今年一年,我们就对agent行为进行了压力测试,并深化了我们的网络化学-生物对齐评估套件。我们开创了评估新型风险的新方法,例如开发专用benchmark来追踪自我复制的早期迹象,并实验检测sandbagging的方法,即AI模型在测试中低估自身能力。我们还在《科学》杂志上发表了首篇论文;这是一项涉及超过76,000名参与者的大规模研究,探索了AI驱动说服的杠杆。

3. 我们推进了评估科学

AISI的角色不仅仅是运行测试——而是让评估本身更加科学和可靠。

今年,我们引入了新框架,例如用于评估者可靠性的贝叶斯GLM,以及用于更好理解agent行为的转录级分析。我们为分析现有benchmark的鲁棒性以及严格agent测试的最佳实践的工作做出了贡献。

4. 我们发现并帮助修复了关键漏洞

我们与AI开发者合作,识别安全措施漏洞并推动具体缓解措施。我们与OpenAIAnthropic进行的端到端生物安全红队测试揭示了数十个漏洞,包括新的通用越狱路径。Agent揭示了数十个漏洞,包括新的通用越狱路径。我们还与Anthropic进行了迄今为止最大规模的后门数据投毒研究,展示了即使微小的污染也能通过训练传播,并与Grey Swan进行了agent红队测试,发现了跨行业的62,000个漏洞。

5. 我们扩展了全球最广泛使用的政府支持评估工具

InspectInspectSandboxInspectCyber以及我们最新发布的ControlArena现已被世界各地的政府、公司和学术界使用。这些开放工具降低了高质量评估的门槛,使安全科学能够大规模普及。

6. 我们投资于更广泛的生态系统

AI安全无法由单一组织解决。仅今年一年,我们就启动或扩展了:

这些项目吸引了数千份提案,正在推动跨学科进展。

7. 我们为政府应对可能的未来做好了准备

AISI与国家安全合作伙伴及政府各部门进行了多次演练和简报,帮助团队规划新兴能力并在危机期间更快协调。这些演练确保英国在前沿发生变化时不会措手不及。正如军情五处处长所说,我们必须“在今天,深入思考未来几年保卫国家意味着什么。”今年,我们正是这样做的。

8. 我们推进了国际合作

今年是各国在AI测量科学方面合作向前迈进的一步。我们两年前帮助启动的国际网络现已演变为先进AI测量、评估与科学国际网络,这一转变反映了对以严谨、证据驱动方法理解先进AI的共同承诺。

9. 我们扩大了与领先开发者的合作

上个月,我们与Google DeepMind启动了新的研究合作伙伴关系,实现了数据共享、联合发表,并在对齐相关问题——包括思维链监控、社会情感对齐以及AI对经济活动的影响——上深化合作。我们还深化了与AnthropicOpenAICohere的合作,作为英国政府更广泛谅解备忘录的一部分——所有这些都包含与AISI合作的承诺。

10. 我们加强了AISI自身——我们的使命、文化和领导力

今年,我们采取了重大步骤来明确战略、完善文化,并以使命所需的紧迫感和雄心建立世界一流的团队。我们专注于包容性、高绩效,并建立多学科环境,让有才华的人能够发挥最佳水平。同时,我们不断壮大我们杰出的研究人员、工程师、政策专家和运营人员团队。我在AISI看到的活力和团队精神让我相信,我们能够应对面前的挑战规模。

展望未来

AI正以非凡的速度发展。我们的工作是通过科学、合作伙伴关系以及政府所需的有分寸且自信行事的证据,保持领先于这一趋势。这项工作紧迫。但自从加入以来我所看到的一切告诉我,AISI拥有清晰的使命和能够实现它的人才。

感谢AISI的每一位成员,以及今年支持和挑战我们的政府、行业和学术界的合作伙伴。让我们迎接又一年在当今最重要挑战之一上的科学、影响和进步。

图片5

图片6图片7

AI安全研究所是科学、创新与技术部下属的研究机构。

AISI

主页关于我们资助职业机会

我们的工作

博客研究研究议程

联系

科学、创新与技术部图片8 LinkedIn图片9: Twitter图标 Twitter

网站政策

隐私政策

www.aisi.gov.uk使用对网站功能和匿名使用分析必不可少的cookies。

我了解

图片10

图片11: 关闭图标

感谢分享AISI的工作!

我们已将此图片复制到您的剪贴板。

您可以在下一页将其粘贴到您的推文中

(使用'ctrl + v'或'cmd + v'粘贴)

继续发布推文 图片12: Twitter图标

图片13

译自 UK AI Security Institute · 录于 二〇二六年五月十四日