前沿AI安全框架会议

Conference on frontier AI safety frameworks

二〇二六年五月十六日 · 英文原文

摘要

2025年2月法国AI行动峰会前，16家全球AI公司承诺为前沿AI系统制定安全框架，定义不可容忍风险阈值并明确缓解措施。英国AI安全研究所与AI治理中心将于2024年11月21-22日在旧金山湾区组织仅限受邀者参加的会议（约100人），讨论框架设计与实施挑战。会议征集关于安全框架制定、模型评估、阈值定义、透明度及第三方审查等主题的讨论材料，后续将发布论文集。

读者注：我们已于2025年2月14日更名为AI安全研究所。更多信息请点击此处。

在AI首尔峰会上，16家全球AI公司承诺将在2025年2月法国AI行动峰会之前，为前沿AI系统制定并发布安全框架。这些框架旨在定义阈值，超过该阈值的前沿AI系统将对整个社会构成不可容忍的风险，并阐明它们打算如何以透明、负责任的方式识别和缓解风险，使其保持在阈值以下。承诺制定此类框架是值得称赞的一步。

然而，这仅仅是第一步。AI及AI安全的科学尚处于早期阶段。为了推动这一科学的发展，我们正在组织一场会议，作为"通往法国之路"活动，将汇聚来自承诺签署公司及研究机构的专家，共同讨论前沿AI安全框架设计与实施中最紧迫的挑战。

该会议将于11月21日至22日在旧金山湾区举行，由英国AI安全研究所与AI治理中心联合组织。这是一场仅限受邀者参加的会议，预计约100人出席。

此次会议紧随国际AI安全研究所网络首次会议之后，该会议由美国政府主办，将于2024年11月20日至21日在旧金山举行。

在会议召开之前，我们邀请与会者提交关于AI安全框架的讨论材料。为确保会议议程的透明度，我们在此公布征稿通知。临近会议时，我们还计划发布一份经过轻微编辑的会议论文集，其中包含大部分提交材料。

‍

征稿通知

我们欢迎所有会议受邀者就以下与前沿AI安全承诺相关的主题提交材料：

如何制定和改进安全框架：

现有及草案安全框架： 承诺签署方欢迎展示其当前或草案中的安全框架（或其部分内容），以征求反馈和讨论。
改进现有安全框架： 如何加强现有安全框架？我们如何借鉴其他行业的最佳实践？
基于安全框架的演进（承诺V）：随着AI系统能力的提升，安全框架需要如何随时间变化？当AI系统能够构成不可容忍的风险水平时，它们需要如何改变？
对AI安全框架的支持：对于尚未开发出前沿AI系统和/或安全框架的公司，常见的挑战是什么？哪些类型的资源会对它们有帮助？政府、学术界、公司、民间社会及其他第三方如何更好地支持它们？

实现成果1的方法： "组织在开发和部署其前沿AI模型和系统时，能够有效识别、评估和管理风险。"

模型评估（承诺I）：评估在安全框架中扮演什么角色？当前的最佳实践是什么样的？当前评估在哪些方面可能未能识别风险？评估科学在哪些方面存在不足，未来应朝哪个方向发展？
威胁建模与风险评估（承诺I）：前沿AI开发者应如何评估其系统带来的风险？评估结果应如何纳入风险评估？除评估结果外，还有哪些额外因素应在风险评估中发挥作用？当前不同风险的规模有多大？
不可容忍风险的阈值（承诺II）：当前安全框架中的阈值是如何定义的，如何改进？如何验证和评估这些阈值的充分性？阈值应仅关注模型能力，还是也应考虑其他因素？应由谁设定阈值，为什么？
模型部署风险措施（承诺III-IV）：在开发和部署过程中，正在使用哪些技术来降低模型风险？如何改进这些措施？是否需要开发新技术？如何评估安全措施的充分性和稳健性？
网络安全措施（承诺III-IV）：可以采取哪些措施来保护模型权重？模型泄露的风险有多大？哪些模型需要何种级别的安全措施？不同安全措施的效果和成本如何？

实现成果2的方法： "组织对安全开发和部署其前沿AI模型和系统负责。"

实现安全框架的内部治理与风险管理流程（承诺VI）：组织目前正在实施哪些内部治理和风险管理流程？哪些方面可以改进？可以从其他行业的实践中借鉴什么？

实现成果3的方法： "组织在前沿AI安全方面的做法对包括政府在内的外部行为者具有适当的透明度。"

外部问责与透明度（承诺VII-VIII）：哪些信息应公开分享？哪些信息应分享给特定群体？哪些信息仅应分享给政府？可以建立哪些程序和基础设施来减少安全和保密方面的担忧？
第三方审查（承诺VIII）：目前为前沿系统提供了哪些外部模型访问权限？我们如何进一步促进第三方评估和审计行业的发展？需要开发哪些技术和机构来促进更稳健的外部审查？外部行为者有哪些机会参与安全框架的制定？

‍

推文此图片

下载图片

译自 UK AI Security Institute · 录于二〇二六年五月十六日