一声棒喝，本不立文字；
偏要著録，已是二义。

UK AI Security Institute

我们如何与前沿AI开发者合作提升模型安全性

How we’re working with frontier AI developers to improve model security

二〇二六年五月十四日 · 英文原文

摘要

英国AI安全研究所（AISI）与Anthropic、OpenAI开展自愿合作，通过对抗性机器学习专家团队识别并修复前沿AI系统漏洞。AISI及美国标准与创新中心（CAISI）获得深度模型访问权限（含非公开工具与防护细节），旨在帮助政府理解AI风险并加强系统安全性。Anthropic与OpenAI已分别发文分享合作经验。

我们如何与前沿AI开发者合作提升模型安全性 | AISI工作

请启用本网站的JavaScript。

A

A

关于我们研究资助博客联系

首页关于我们研究资助博客

我们如何与前沿AI开发者合作提升模型安全性

深入了解我们与Anthropic和OpenAI正在进行的自愿合作。

—

2025年9月13日

在AI安全研究所（AISI），我们组建了一支由顶尖研究人员组成的团队，他们在安全关键领域拥有专业知识。其中包括对抗性机器学习专家，他们与模型提供商密切合作，识别漏洞并加强顶级AI系统的防护措施。这项工作的目的有两个：一是让政府更好地理解AI的风险，二是帮助领先的开发者加强其系统的安全性。

今天，我们很高兴Anthropic和OpenAI分享了他们与AISI以及美国标准与创新中心（CAISI）持续合作的见解。

他们的博客文章概述了AISI和CAISI如何与公司合作，识别和修复系统漏洞，并分享更广泛的经验教训，说明如何使政府与行业的合作更有效地改进模型防护。请阅读Anthropic和OpenAI网站上的文章。

我们的评估得益于Anthropic和OpenAI为我们提供了开展这项工作所需的深度模型访问权限——包括非公开的工具和防护细节。我们与CAISI及前沿AI公司的成功合作，凸显了英美在AI安全领域合作的价值。我们期待未来继续推进这些努力。

‍

AI安全研究所是科学、创新与技术部下属的研究机构。

AISI

首页关于我们资助职业

我们的工作

博客研究研究议程

联系

科学、创新与技术部 LinkedIn Image 9: Twitter图标 Twitter

网站政策

www.aisi.gov.uk 使用必要的cookie以保障网站功能及匿名使用分析。

我了解

感谢分享AISI的工作！

我们已将这张图片复制到您的剪贴板。

您可以在下一页将其粘贴到您的推文中。

（使用 'ctrl + v' 或 'cmd + v' 粘贴）

继续发布推文 Image 12: Twitter图标

译自 UK AI Security Institute · 录于二〇二六年五月十四日