UK AI Security Institute

我们的第一年

Our First Year

二〇二六年五月十六日 · 英文原文

英国AI安全研究所(AISI)在成立一周年之际发布报告,总结其工作成果。该机构已对16个前沿AI模型完成评估,涵盖网络攻击、化学与生物滥用、自主agent能力等风险维度,与OpenAI、Google DeepMind、Anthropic等公司合作测试。AISI开源评估平台Inspect,发布数十项评估,并与美国AISI签署合作协议,推动国际AI安全标准。其使命是为政府提供对先进AI系统安全性的实证理解,并计划将组织置于法定基础上。

致读者:我们已于 2025 年 2 月 14 日更名为 AI 安全研究所。更多信息请点击此处

回想一年前我们身处何处。

世界各国领导人齐聚首届 AI 安全峰会,并得出结论:强大的 AI 可能具有“造成严重甚至灾难性伤害的潜力”。

英国网络机构警告称,“未来两年内,AI 几乎肯定会增加网络攻击的数量并加剧其影响”。

彼时尚未获得诺贝尔奖的 Demis Hassabis 呼吁政府“像对待气候变化等其他重大全球挑战一样,严肃对待 AI 风险”。

英国政府随即成立了全球首个 AI 安全研究所。

但当时并没有现成的蓝图来定义 AI 安全研究所应该是什么样子。

一年后,我们已建成一个世界领先的政府组织,专门用于理解 AI 威胁。我们运行最先进的评估,以衡量具有潜在危险的 AI 能力。我们利用这些洞察,创建了一套国际通用的方法来定义和衡量这些风险。我们还开展世界领先的研究,以理解这些危害将如何影响我们的社会。

值此成立一周年之际,我们向大家介绍我们已取得的成果以及未来的发展方向。


实证使命

AI 安全并非科幻。如果我们担心强大的 AI 模型可能被用于网络攻击、可能抵抗人类控制、或可能被用于说服和操纵大众,那么让我们来衡量这些风险。让我们将实证主义引入关于 AI 安全的辩论。

这就是 AI 安全研究所的目标。

我们的使命是为政府提供对先进 AI 系统安全性的实证理解。

我们与全球一些最具创新性、发展最快的科技公司合作。我们尤其关注那些最严重的风险,这些风险是政府必须严肃承担的责任。我们将前者的敏捷性、创新性和雄心,与后者的专业知识和庄重感相结合,在政府内部打造了一个前沿的初创机构。

在过去一年里,我们将精力集中在三条工作线上:成为评估模型安全性的科学权威;推动 AI 安全研究领域的发展;以及与其他政府和 AI 公司合作制定一套全球标准。

AI 安全的技术权威

最强大的 AI 模型是否危险?

我们希望构建工具来回答这个问题,并在模型变得更强大时不断更新答案。

因此,我们构建了评估套件:一系列测试,可对最强大的 AI 模型运行,以了解其能力和安全性。我们的评估针对那些最令我们担忧的能力:网络攻击、化学与生物滥用、自主 agent 能力、安全防护措施以及对社会的冲击。

构建这些评估套件耗费了一个专注而卓越的团队数千小时。这些努力已见成效:我们现在处于世界领先地位。我们现在拥有专业知识、专有工具和基础设施,能够同时快速、严格地对一系列前沿模型家族进行多项测试。

正因如此,OpenAI、Google DeepMind 和 Anthropic 等公司都与 AISI 合作,测试其最先进的模型。我们还利用这些工具定期评估公开可用的模型,以获取 AI 能力前沿的快照。

在第一年,我们对 16 个模型进行了评估。

我们称这些为“套件”,因为不存在单一的“终极”测试。这仍然是一门开放的科学,我们发现需要结合一系列不同的方法,才能全面了解特定模型的风险状况。我们的自动化基准测试向模型提出数百个问题,以快速了解其能力。我们的红队测试让威胁专家与模型面对面,进行深入的、基于场景的评估。我们还开展人类提升研究——类似于随机对照试验——让“代表性用户”(例如新手或计算机科学本科生)使用 AI,并衡量这是否能提升他们完成潜在有害任务的能力。

这些测试并非“政府安全认证”。我们从不认可特定 AI 模型的安全性。我们也不能将所有结果公开发布,因为它们通常包含敏感材料。

但这些评估让政府能够洞察 AI 前沿发展中出现的风险,并为其决定是否、何时以及如何干预提供实证基础。

我们在这方面的研究尚未完成。评估是一门新科学。我们已经发布了第一年的一些经验教训;在未来一年,我们希望磨练技能,在评估套件中增加新的威胁类型,并与更多公司合作测试世界上最强大的 AI 模型。

塑造全球 AI 治理

如果前沿 AI 的风险增加,世界是否准备好应对?

AI 系统可能在个别国家开发,但一旦发布,便会在全球范围内使用。没有一个国家能独自实现安全的 AI。

至关重要的是,如果 AI 风险增加,国际社会必须形成成熟的应对机制。这种机制需要预先就我们关心的危害以及有效的检测方法达成一致。

这正是我们与其他政府合作伙伴正在构建的。

我们首先发起了一项独立的、国际性的 AI 安全科学审查。Yoshua Bengio 主持一个起草团队,该团队汇集了 30 个国家以及联合国和欧盟的专业知识。英国 AISI 提供秘书处支持。目标是创建一个共同的国际基线,用于理解 AI 安全。我们于 5 月发布了中期报告。最终报告将在明年于巴黎举行的第三届 AI 行动峰会之前发布。

这为我们提供了当前的基线。接下来,我们需要定义未来的红线。我们不希望 AI 模型能够做什么?

英国于 5 月在首尔共同主办了第二届 AI 安全峰会,会上 28 个国际合作伙伴一致认为,在没有适当缓解措施的情况下,前沿 AI 模型不应表现出某些能力。谈判文本特别指出了与化学和生物武器相关的攻击能力,以及模型逃避人类监督的潜在能力。现在我们正与产业界、学术界和国际合作伙伴合作,以具体化这些阈值。

如果我们理解了基线,并且能够定义红线,那么剩下的差距就是如何就追踪不断变化的前沿达成一致,以及如何在接近或跨越这些红线时做出响应。

这种响应很大程度上在于建立国际社会共同协作的能力——尤其是在那些认真对待这些风险的政府之间。

虽然英国是第一个建立 AI 安全研究所的国家,但我们并非最后一个。目前已有 10 个类似 AISI 的机构,协调组成了国际 AISI 网络,该网络将于下周首次会面。我们将讨论如何衡量和缓解 AI 风险,并开始建立 AI 安全科学方面的协调与合作机制。

我们已经证明,政府之间在技术安全工作上开展合作是可能的。今年 4 月,我们与美国 AISI 签署了一项协议,以创建“可互操作”的能力。此后,我们与美国政府进行了多次联合测试,并正在合作对风险进行分类,并定义管理这些风险的最佳实践。

这些国际努力需要 AI 开发者的贡献。毕竟,这些公司最终要对其模型的安全性负责。在首尔峰会上,我们获得了 16 家 AI 公司的承诺,以识别、评估和管理 AI 风险。我们将在即将举行的会议上推进这些前沿 AI 安全承诺,届时 AI 开发者可以比较各自制定安全政策的方法。


推动 AI 研究

要保证 AI 模型的安全性,仍有大量基础科学工作要做。因此,我们的第三个也是最后一个工作重点,是激励其他研究者在紧迫且重要的问题上开展数量级更大的研究。

其中一部分工作是直接与有才华的研究人员合作。我们最近发布了一项公开征集,邀请合作者参与关键研究领域的工作,如安全防护、评估科学和安全案例。我们推出了一项悬赏,以开发新颖的评估方法和 agent 脚手架。我们还资助与 AI 相关的系统性风险研究。

但我们同样希望将工具交到全球 AI 安全研究人员手中。这就是我们开源评估平台 Inspect 的原因。Inspect 帮助我们快速、轻松地运行评估:现在它已被其他政府和一些领先的 AI 开发者所使用。

今天,我们更进一步,在 Inspect 中发布了数十项评估。如果我们能让 AI 安全研究变得更容易,就能让这门科学发展得更快。


结论

我们在一年内取得了很大成就。最重要的是,这证明了来到 AISI 工作的杰出人才。

我们必须快速行动,因为 AI 发展迅速。我们的评估显示,AI 模型的能力每个季度都在增强。

通过建立 AI 安全的技术权威、推动全球 AI 安全标准以及支持更广泛的研究工作,我们正在努力确保 AI 的危害不会扼杀其潜力。

政府现已制定了 AISI 未来的长期愿景,并计划将该组织置于法定基础上。这将为 AI 开发者提供长期清晰的指引,让他们了解应如何与我们合作。这是赋予我们长期增强 AI 安全性所需权力和独立性的关键一步。

我们在这条道路上才走了一年。还有更多工作要做。

如果你想与我们一同完成这项工作,我们正在招聘

译自 UK AI Security Institute · 录于 二〇二六年五月十六日