UK AI Security Institute

前沿AI安全框架会议

Conference on frontier AI safety frameworks

二〇二六年五月十六日 · 英文原文

2025年2月法国AI行动峰会前,16家全球AI公司承诺为前沿AI系统制定安全框架,定义不可容忍风险阈值并明确缓解措施。英国AI安全研究所与AI治理中心将于2024年11月21-22日在旧金山湾区组织仅限受邀者参加的会议(约100人),讨论框架设计与实施挑战。会议征集关于安全框架制定、模型评估、阈值定义、透明度及第三方审查等主题的讨论材料,后续将发布论文集。

读者注:我们已于2025年2月14日更名为AI安全研究所。更多信息请点击此处

AI首尔峰会上,16家全球AI公司承诺将在2025年2月法国AI行动峰会之前,为前沿AI系统制定并发布安全框架。这些框架旨在定义阈值,超过该阈值的前沿AI系统将对整个社会构成不可容忍的风险,并阐明它们打算如何以透明、负责任的方式识别和缓解风险,使其保持在阈值以下。承诺制定此类框架是值得称赞的一步。

然而,这仅仅是第一步。AI及AI安全的科学尚处于早期阶段。为了推动这一科学的发展,我们正在组织一场会议,作为"通往法国之路"活动,将汇聚来自承诺签署公司及研究机构的专家,共同讨论前沿AI安全框架设计与实施中最紧迫的挑战。

该会议将于11月21日至22日在旧金山湾区举行,由英国AI安全研究所与AI治理中心联合组织。这是一场仅限受邀者参加的会议,预计约100人出席。

此次会议紧随国际AI安全研究所网络首次会议之后,该会议由美国政府主办,将于2024年11月20日至21日在旧金山举行。

在会议召开之前,我们邀请与会者提交关于AI安全框架的讨论材料。为确保会议议程的透明度,我们在此公布征稿通知。临近会议时,我们还计划发布一份经过轻微编辑的会议论文集,其中包含大部分提交材料。

征稿通知

我们欢迎所有会议受邀者就以下与前沿AI安全承诺相关的主题提交材料:

如何制定和改进安全框架

  1. 现有及草案安全框架: 承诺签署方欢迎展示其当前或草案中的安全框架(或其部分内容),以征求反馈和讨论。

  2. 改进现有安全框架: 如何加强现有安全框架?我们如何借鉴其他行业的最佳实践?

  3. 基于安全框架的演进(承诺V):随着AI系统能力的提升,安全框架需要如何随时间变化?当AI系统能够构成不可容忍的风险水平时,它们需要如何改变?

  4. 对AI安全框架的支持:对于尚未开发出前沿AI系统和/或安全框架的公司,常见的挑战是什么?哪些类型的资源会对它们有帮助?政府、学术界、公司、民间社会及其他第三方如何更好地支持它们?

实现成果1的方法: "组织在开发和部署其前沿AI模型和系统时,能够有效识别、评估和管理风险。"

  1. 模型评估(承诺I):评估在安全框架中扮演什么角色?当前的最佳实践是什么样的?当前评估在哪些方面可能未能识别风险?评估科学在哪些方面存在不足,未来应朝哪个方向发展?

  2. 威胁建模与风险评估(承诺I):前沿AI开发者应如何评估其系统带来的风险?评估结果应如何纳入风险评估?除评估结果外,还有哪些额外因素应在风险评估中发挥作用?当前不同风险的规模有多大?

  3. 不可容忍风险的阈值(承诺II):当前安全框架中的阈值是如何定义的,如何改进?如何验证和评估这些阈值的充分性?阈值应仅关注模型能力,还是也应考虑其他因素?应由谁设定阈值,为什么?

  4. 模型部署风险措施(承诺III-IV):在开发和部署过程中,正在使用哪些技术来降低模型风险?如何改进这些措施?是否需要开发新技术?如何评估安全措施的充分性和稳健性?

  5. 网络安全措施(承诺III-IV):可以采取哪些措施来保护模型权重?模型泄露的风险有多大?哪些模型需要何种级别的安全措施?不同安全措施的效果和成本如何?

实现成果2的方法: "组织对安全开发和部署其前沿AI模型和系统负责。"

  1. 实现安全框架的内部治理与风险管理流程(承诺VI):组织目前正在实施哪些内部治理和风险管理流程?哪些方面可以改进?可以从其他行业的实践中借鉴什么?

实现成果3的方法: "组织在前沿AI安全方面的做法对包括政府在内的外部行为者具有适当的透明度。"

  1. 外部问责与透明度(承诺VII-VIII):哪些信息应公开分享?哪些信息应分享给特定群体?哪些信息仅应分享给政府?可以建立哪些程序和基础设施来减少安全和保密方面的担忧?

  2. 第三方审查(承诺VIII):目前为前沿系统提供了哪些外部模型访问权限?我们如何进一步促进第三方评估和审计行业的发展?需要开发哪些技术和机构来促进更稳健的外部审查?外部行为者有哪些机会参与安全框架的制定?

图片1

推文此图片

下载图片

译自 UK AI Security Institute · 录于 二〇二六年五月十六日