第四次进展报告
Fourth progress report
英国AI安全研究所(AISI)发布第四份进展报告,宣布在网络安全、化学-生物、安全防护和自主系统四个领域对公开前沿模型进行测试,并开源评估平台Inspect。AISI已组建超过30名技术研究人员团队,任命Jade Leung为首席技术官,在旧金山设立新办公室。英国发布首份《国际先进AI安全科学报告》,由Yoshua Bengio主持,协调30个国家调查AI风险。AISI与美国、加拿大AI安全研究所签署合作伙伴关系,并关注AI agent可能带来的风险质变。
致读者:我们已于2025年2月14日更名为AI安全研究所。了解更多信息请点击此处。
我们的第四份进展报告
在即将共同主办的首尔AI安全峰会前夕,英国AI安全研究所宣布:
- 我们正在发布首篇技术博客文章,内容涉及模型评估。文中包含了AISI于2024年4月对公开可用的前沿模型进行测试的概要结果。我们在网络安全、化学-生物、安全防护和自主系统四个领域开展了测试。
- 英国已发布首份《国际先进AI安全科学报告》,协调30个国家共同调查AI风险的科学证据。
- 我们已开源了用于运行AI安全评估的平台Inspect。
- 我们正在旧金山开设新办公室,以便继续与美国紧密合作,并吸引大西洋两岸的全球人才加入AISI。
- 继与美国AI安全研究所签署谅解备忘录以实现互操作后,国务大臣Donelan宣布与加拿大AI安全研究所建立新的合作伙伴关系,开辟共享专业知识的途径以支持测试与评估工作,并促进双方AISI之间的人员借调。
- 随着我们持续建设模型测试能力,目前已有超过30名技术研究人员入职。我们还任命了去年10月加入团队的Jade Leung担任首席技术官。
我们已运营近一年,这是我们的第四份进展报告。
首先,我们建设了国家能力……
再过四周,便是我加入英国政府担任AI安全研究所主席满一年的日子。我为团队在如此短的时间内取得的成就感到无比自豪。
当我于2023年6月首次抵达白厅时,只有一位AI研究员为科学、创新与技术部工作——即国务大臣的AI政策顾问Nitarshan Rajkumar。
过去一年里,我们一直在建设:
- 我们组建了全球最大的安全评估团队之一——从世界各地吸引人才。目前团队拥有超过30名技术研究人员。
- 这些研究人员正与该领域的一些顶尖人才合作。我们的研究领导团队包括Geoffrey Irving、Chris Summerfield教授和Yarin Gal担任研究总监,Jade Leung担任AISI首席技术官。
- 我们招募了一支杰出的外部咨询委员会(EAB),成员包括国家安全、技术及其他领域的专家,其中包括(但不限于)Yoshua Bengio、GCHQ负责人Anne Keast-Butler以及英国副国家安全顾问Matt Collins。我由衷感谢过去一年来支持我们的所有EAB成员。
- 去年11月在布莱切利公园举行的首届全球AI安全峰会上,我们为未来AI的国际治理奠定了基础。28个国家签署了《布莱切利AI安全宣言》,包括美国、欧盟和中国。他们还同意对AI风险的科学文献进行国际审查。11个国家及领先的前沿AI公司(包括Meta、Google DeepMind、Anthropic和OpenAI)也同意在安全评估方面开展合作。
- 今年2月,我们明确了评估AI系统的方法,公布了正在开发的不同类型测试清单以及我们将衡量的风险。
- 今天,我们宣布了在旧金山设立办公室的计划;很快你将能够在硅谷为英国AI安全研究所工作。
- 最后,你可能已经注意到,本文发布在AISI的全新网站上。这将成为AISI所有招聘广告、博客文章及其他更新的新家园。你也可以在@AISafetyInst上关注我们。
这些都是进展的外在表现。其背后是巨大的智慧与精力投入,以实现政府内部创业的愿景;至于我们克服了哪些困难与官僚障碍,留给读者自行想象。我感谢那些向我展示幕后运作过程的人。
……现在,我们开始交付
建设这个卓越组织的工作远未结束。但我们现在有了动力。我们可以开始交付产品了。在技术快速发展的世界中,我们相信政府只有快速交付并迭代,才能跟上步伐。
产品1:政府安全测试
今天,我们发布了首篇技术博客文章。文中列出了AISI于2024年4月对公开可用的大语言模型进行基线评估的概要结果。我们在网络安全、化学-生物、安全防护和自主系统四个领域开展了测试。
我们发现了一些模型可用于获取知识(这些知识既可被用于积极目的,也可被用于有害目的)的领域,同时也发现了一些模型表现不佳的领域。我们还发现,这些模型内置的安全防护措施甚至容易受到基本"越狱"攻击的影响。
这不是我们的首次测试。正如财政大臣在年初预算案中宣布的那样,我们在一个前沿模型部署之前对其进行了测试。继布莱切利测试协议之后,我们看到了该领域领先公司对部署前测试的切实参与,我们将在适当时候分享更多信息。
产品2:开源评估平台
我不确定政府发布开源软件是否常见,但我们已开源了Inspect,这是一个软件库,使测试人员能够评估单个模型的具体能力。现在,AI社区可以免费使用它。
AI面临的结构性挑战之一是跨国界、跨机构协调的需求。我相信学术界、初创公司、大公司、政府和公民社会都能发挥作用,而开源可以成为更广泛协调的机制。
请试用Inspect。用它来评估AI系统的安全性。我们期待反馈。
产品3:AI风险科学国际调查
就在上周,我们发布了《国际先进AI安全科学报告》的中期版本。这份报告是布莱切利峰会的成果之一,汇集了来自30个国家、欧盟和联合国的代表,首次综合阐述了先进AI系统的能力与风险现状。
该报告由图灵奖得主、计算机科学家Yoshua Bengio主持。我们AI安全研究所提供秘书处服务。报告识别了通用AI(GPAI)带来的风险,评估了评估和缓解这些风险的技术方法,并指出了科学家之间存在分歧的领域。其灵感来源于政府间气候变化专门委员会。
最终报告将在法国AI峰会前发布,并将纳入来自学术界、公民社会及我们国际合作伙伴的更多证据。
将《布莱切利宣言》付诸实践
我们并非孤军奋战。
上个月,DSIT国务大臣Michelle Donelan与美国商务部长Gina Raimondo签署了一份谅解备忘录,将英美两国的AI安全研究所紧密联结。我们的承诺是在AI安全测试、安全标准和安全研究方面实现互操作。
就在今天,国务大臣Michelle Donelan与加拿大同行François-Philippe Champagne宣布了我们AI安全研究所之间的初步合作伙伴关系,两国均致力于将《布莱切利宣言》付诸实践。
下一步是首尔AI峰会,团队本周将出席。
这仅仅是我们国际合作的开始;我们希望建立一个由AI安全研究所及类似政府组织组成的网络。该网络可以整合安全标准、测试和研究方面的国际工作,更有效地分配我们的努力,并使前沿AI公司更容易与各国就AI安全测试进行合作。
下一步是什么?也许是agent。
AI安全研究所的目标是衡量前沿风险。那么,接下来会发生什么?
AI领域发展如此之快,以至于难以预测。但有一种可能性是,具有更高准确度的下一代模型可能解锁真正有能力的agent系统——即能够为你做事的AI。我们特别感兴趣的是评估这些工具如何在网络犯罪或化学-生物等领域为恶意行为者提供能力提升。
当前许多担忧在于AI系统提供敏感知识,这些知识可能帮助潜在的不良行为者,就像一个更先进、未经审查的搜索版本。然而,随着AI agent的持续进步,我们可能会看到风险类型发生质变——AI agent可能帮助恶意行为者在现实世界中执行行动,而这些行动在以往以给定的速度、规模和/或能力水平下是他们无法做到的。随着大型AI开发者开始直接专注于开发AI agent,我们可能会看到其能力大幅提升——这让我们对明年年底可能拥有的能力感到不确定。
鉴于潜在风险,agent是AISI内部的一个重要话题——我们认为,在政府核心拥有技术专家可能会提供巨大价值。我们的评估团队正专注于构建任务,以跟踪系统帮助端到端执行某些威胁模型(如各种形式的网络犯罪)的能力。我们也在努力确保我们内部的agent尽可能强大——这使我们稳居流行的GAIA(通用AI助手)基准测试的前三名(我们正在追赶你,'Multi-Agent Experiment v0.1'!)。

Tweet This Image
Download Image
虽然评估测试的是模型的能力,但AI的许多风险并非模型固有;风险将来自模型在特定情境下的部署。除了询问模型是否具有危险能力外,我们还需要询问社会是否具有韧性。因此,我们的国务大臣Michelle Donelan将在韩国AI安全峰会的数字部长日宣布一项令人兴奋的新计划,AISI将启动该计划以增强社会对这些风险的韧性。
乐观主义与经验主义
最后,我想回顾一下我们这样做的原因。英国AISI是首相和国务大臣Michelle Donelan推动的更广泛AI战略的一部分。其核心原则包括:
- 坚信AI是一项变革性技术,具有改善我们生活的巨大潜力。AI为英国带来了巨大的经济机遇。该行业每年价值已超过37亿英镑,雇佣了超过5万人。
- 政府正在进行重大投资以支持英国的能力,包括投入15亿英镑用于AI计算能力,以支持政府和学术界。
- 对于如此快速发展的技术,过早或过于宽泛的监管可能会损害创新。英国尚未出台新的立法,而是通过一系列白皮书分享早期思考。
- 乐观并不意味着盲目忽视风险。去年10月,首相采取了不同寻常的举措,发布了英国关于AI风险的分析报告,其中包括英国情报界的评估,并主办了AI安全峰会以推动围绕这些风险的全球协调。
- 建设能力以经验性地评估这些风险,从而为政策制定者提供信息,这一点至关重要。这是AISI的核心工作。
- 没有任何国家能独自应对这一挑战,因此首相组织了AI安全峰会,国务大臣Michelle Donelan推动了与美国和加拿大政府的合作伙伴关系。
如果你对在一个快节奏、使命驱动的团队中工作、处于AI研究前沿的前景感到兴奋,可以在此查看我们当前的职位空缺。我们已在伦敦团队开放了研究工程师和研究科学家职位,并将很快开放旧金山办公室的职位。