第四次进展报告

Fourth progress report

二〇二六年五月十六日 · 英文原文

摘要

英国AI安全研究所（AISI）发布第四份进展报告，宣布在网络安全、化学-生物、安全防护和自主系统四个领域对公开前沿模型进行测试，并开源评估平台Inspect。AISI已组建超过30名技术研究人员团队，任命Jade Leung为首席技术官，在旧金山设立新办公室。英国发布首份《国际先进AI安全科学报告》，由Yoshua Bengio主持，协调30个国家调查AI风险。AISI与美国、加拿大AI安全研究所签署合作伙伴关系，并关注AI agent可能带来的风险质变。

致读者：我们已于2025年2月14日更名为AI安全研究所。了解更多信息请点击此处。

我们的第四份进展报告

在即将共同主办的首尔AI安全峰会前夕，英国AI安全研究所宣布：

我们正在发布首篇技术博客文章，内容涉及模型评估。文中包含了AISI于2024年4月对公开可用的前沿模型进行测试的概要结果。我们在网络安全、化学-生物、安全防护和自主系统四个领域开展了测试。
英国已发布首份《国际先进AI安全科学报告》，协调30个国家共同调查AI风险的科学证据。
我们已开源了用于运行AI安全评估的平台Inspect。
我们正在旧金山开设新办公室，以便继续与美国紧密合作，并吸引大西洋两岸的全球人才加入AISI。
继与美国AI安全研究所签署谅解备忘录以实现互操作后，国务大臣Donelan宣布与加拿大AI安全研究所建立新的合作伙伴关系，开辟共享专业知识的途径以支持测试与评估工作，并促进双方AISI之间的人员借调。
随着我们持续建设模型测试能力，目前已有超过30名技术研究人员入职。我们还任命了去年10月加入团队的Jade Leung担任首席技术官。

我们已运营近一年，这是我们的第四份进展报告。

首先，我们建设了国家能力……

再过四周，便是我加入英国政府担任AI安全研究所主席满一年的日子。我为团队在如此短的时间内取得的成就感到无比自豪。

当我于2023年6月首次抵达白厅时，只有一位AI研究员为科学、创新与技术部工作——即国务大臣的AI政策顾问Nitarshan Rajkumar。

过去一年里，我们一直在建设：

我们组建了全球最大的安全评估团队之一——从世界各地吸引人才。目前团队拥有超过30名技术研究人员。
这些研究人员正与该领域的一些顶尖人才合作。我们的研究领导团队包括Geoffrey Irving、Chris Summerfield教授和Yarin Gal担任研究总监，Jade Leung担任AISI首席技术官。
我们招募了一支杰出的外部咨询委员会（EAB），成员包括国家安全、技术及其他领域的专家，其中包括（但不限于）Yoshua Bengio、GCHQ负责人Anne Keast-Butler以及英国副国家安全顾问Matt Collins。我由衷感谢过去一年来支持我们的所有EAB成员。
去年11月在布莱切利公园举行的首届全球AI安全峰会上，我们为未来AI的国际治理奠定了基础。28个国家签署了《布莱切利AI安全宣言》，包括美国、欧盟和中国。他们还同意对AI风险的科学文献进行国际审查。11个国家及领先的前沿AI公司（包括Meta、Google DeepMind、Anthropic和OpenAI）也同意在安全评估方面开展合作。
今年2月，我们明确了评估AI系统的方法，公布了正在开发的不同类型测试清单以及我们将衡量的风险。
今天，我们宣布了在旧金山设立办公室的计划；很快你将能够在硅谷为英国AI安全研究所工作。
最后，你可能已经注意到，本文发布在AISI的全新网站上。这将成为AISI所有招聘广告、博客文章及其他更新的新家园。你也可以在@AISafetyInst上关注我们。

这些都是进展的外在表现。其背后是巨大的智慧与精力投入，以实现政府内部创业的愿景；至于我们克服了哪些困难与官僚障碍，留给读者自行想象。我感谢那些向我展示幕后运作过程的人。

……现在，我们开始交付

建设这个卓越组织的工作远未结束。但我们现在有了动力。我们可以开始交付产品了。在技术快速发展的世界中，我们相信政府只有快速交付并迭代，才能跟上步伐。

产品1：政府安全测试

今天，我们发布了首篇技术博客文章。文中列出了AISI于2024年4月对公开可用的大语言模型进行基线评估的概要结果。我们在网络安全、化学-生物、安全防护和自主系统四个领域开展了测试。

我们发现了一些模型可用于获取知识（这些知识既可被用于积极目的，也可被用于有害目的）的领域，同时也发现了一些模型表现不佳的领域。我们还发现，这些模型内置的安全防护措施甚至容易受到基本"越狱"攻击的影响。

这不是我们的首次测试。正如财政大臣在年初预算案中宣布的那样，我们在一个前沿模型部署之前对其进行了测试。继布莱切利测试协议之后，我们看到了该领域领先公司对部署前测试的切实参与，我们将在适当时候分享更多信息。

产品2：开源评估平台

我不确定政府发布开源软件是否常见，但我们已开源了Inspect，这是一个软件库，使测试人员能够评估单个模型的具体能力。现在，AI社区可以免费使用它。

AI面临的结构性挑战之一是跨国界、跨机构协调的需求。我相信学术界、初创公司、大公司、政府和公民社会都能发挥作用，而开源可以成为更广泛协调的机制。

请试用Inspect。用它来评估AI系统的安全性。我们期待反馈。

产品3：AI风险科学国际调查

就在上周，我们发布了《国际先进AI安全科学报告》的中期版本。这份报告是布莱切利峰会的成果之一，汇集了来自30个国家、欧盟和联合国的代表，首次综合阐述了先进AI系统的能力与风险现状。

该报告由图灵奖得主、计算机科学家Yoshua Bengio主持。我们AI安全研究所提供秘书处服务。报告识别了通用AI（GPAI）带来的风险，评估了评估和缓解这些风险的技术方法，并指出了科学家之间存在分歧的领域。其灵感来源于政府间气候变化专门委员会。

最终报告将在法国AI峰会前发布，并将纳入来自学术界、公民社会及我们国际合作伙伴的更多证据。

将《布莱切利宣言》付诸实践

我们并非孤军奋战。

上个月，DSIT国务大臣Michelle Donelan与美国商务部长Gina Raimondo签署了一份谅解备忘录，将英美两国的AI安全研究所紧密联结。我们的承诺是在AI安全测试、安全标准和安全研究方面实现互操作。

就在今天，国务大臣Michelle Donelan与加拿大同行François-Philippe Champagne宣布了我们AI安全研究所之间的初步合作伙伴关系，两国均致力于将《布莱切利宣言》付诸实践。

下一步是首尔AI峰会，团队本周将出席。

这仅仅是我们国际合作的开始；我们希望建立一个由AI安全研究所及类似政府组织组成的网络。该网络可以整合安全标准、测试和研究方面的国际工作，更有效地分配我们的努力，并使前沿AI公司更容易与各国就AI安全测试进行合作。

下一步是什么？也许是agent。

AI安全研究所的目标是衡量前沿风险。那么，接下来会发生什么？

AI领域发展如此之快，以至于难以预测。但有一种可能性是，具有更高准确度的下一代模型可能解锁真正有能力的agent系统——即能够为你做事的AI。我们特别感兴趣的是评估这些工具如何在网络犯罪或化学-生物等领域为恶意行为者提供能力提升。

当前许多担忧在于AI系统提供敏感知识，这些知识可能帮助潜在的不良行为者，就像一个更先进、未经审查的搜索版本。然而，随着AI agent的持续进步，我们可能会看到风险类型发生质变——AI agent可能帮助恶意行为者在现实世界中执行行动，而这些行动在以往以给定的速度、规模和/或能力水平下是他们无法做到的。随着大型AI开发者开始直接专注于开发AI agent，我们可能会看到其能力大幅提升——这让我们对明年年底可能拥有的能力感到不确定。

鉴于潜在风险，agent是AISI内部的一个重要话题——我们认为，在政府核心拥有技术专家可能会提供巨大价值。我们的评估团队正专注于构建任务，以跟踪系统帮助端到端执行某些威胁模型（如各种形式的网络犯罪）的能力。我们也在努力确保我们内部的agent尽可能强大——这使我们稳居流行的GAIA（通用AI助手）基准测试的前三名（我们正在追赶你，'Multi-Agent Experiment v0.1'！）。

Tweet This Image

Download Image

虽然评估测试的是模型的能力，但AI的许多风险并非模型固有；风险将来自模型在特定情境下的部署。除了询问模型是否具有危险能力外，我们还需要询问社会是否具有韧性。因此，我们的国务大臣Michelle Donelan将在韩国AI安全峰会的数字部长日宣布一项令人兴奋的新计划，AISI将启动该计划以增强社会对这些风险的韧性。

乐观主义与经验主义

最后，我想回顾一下我们这样做的原因。英国AISI是首相和国务大臣Michelle Donelan推动的更广泛AI战略的一部分。其核心原则包括：

坚信AI是一项变革性技术，具有改善我们生活的巨大潜力。AI为英国带来了巨大的经济机遇。该行业每年价值已超过37亿英镑，雇佣了超过5万人。
政府正在进行重大投资以支持英国的能力，包括投入15亿英镑用于AI计算能力，以支持政府和学术界。
对于如此快速发展的技术，过早或过于宽泛的监管可能会损害创新。英国尚未出台新的立法，而是通过一系列白皮书分享早期思考。
乐观并不意味着盲目忽视风险。去年10月，首相采取了不同寻常的举措，发布了英国关于AI风险的分析报告，其中包括英国情报界的评估，并主办了AI安全峰会以推动围绕这些风险的全球协调。
建设能力以经验性地评估这些风险，从而为政策制定者提供信息，这一点至关重要。这是AISI的核心工作。
没有任何国家能独自应对这一挑战，因此首相组织了AI安全峰会，国务大臣Michelle Donelan推动了与美国和加拿大政府的合作伙伴关系。

如果你对在一个快节奏、使命驱动的团队中工作、处于AI研究前沿的前景感到兴奋，可以在此查看我们当前的职位空缺。我们已在伦敦团队开放了研究工程师和研究科学家职位，并将很快开放旧金山办公室的职位。

译自 UK AI Security Institute · 录于二〇二六年五月十六日