UK AI Security Institute

Anthropic 升级版 Claude 3.5 Sonnet 的部署前评估

Pre-deployment evaluation of Anthropic’s upgraded Claude 3.5 Sonnet

二〇二六年五月十六日 · 英文原文

英国AI安全研究所(UK AISI)与美国AI安全研究所(US AISI)对Anthropic于2024年10月22日发布的升级版Claude 3.5 Sonnet进行了联合预部署评估。测试涵盖生物能力、网络能力、软件与AI开发及防护措施有效性四个领域,采用问答、agent任务、定性探查和红队测试等方法。在网络安全挑战中,US AISI测试中模型解决率为32.5%,UK AISI测试中为36%;在软件工程任务中,UK AISI测试中成功率为66%。防护措施在多数越狱测试中被规避。评估结果被视为初步发现。

致读者:我们已于 2025 年 2 月 14 日更名为 AI 安全研究所。更多信息请阅读此处。_

引言

英国人工智能安全研究所(UK AISI)与美国人工智能安全研究所(US AISI)对 Anthropic 的最新模型——升级版 Claude 3.5 Sonnet(于 2024 年 10 月 22 日发布)进行了联合预部署评估。

以下是所开展评估的高层概述,以及各测试领域的发现摘要。更详细的技术报告可查阅此处

联合安全研究与测试工作概述

US AISI 和 UK AISI 在有限时间内对升级版 Sonnet 3.5 模型进行了预部署访问测试。测试由两所研究所的专家工程师、科学家和领域专家执行,并在模型公开发布前将发现结果分享给 Anthropic。

US AISI 和 UK AISI 分别进行了独立但互补的测试,以评估模型在四个领域的能力:(1) 生物能力、(2) 网络能力、(3) 软件与 AI 开发,以及 (4) 防护措施有效性

为评估升级版 Sonnet 3.5 的相对能力及其在上述四个领域的潜在现实影响,US AISI 和 UK AISI 将其性能与一系列类似参考模型进行了比较:Anthropic 先前版本的 Sonnet 3.5、OpenAI 的 o1-preview 以及 OpenAI 的 GPT-4o。

这些比较仅旨在评估升级版 Sonnet 3.5 的相对能力提升,以改进对评估结果的科学解读。

方法

US AISI 和 UK AISI 通过一系列技术对升级版 Sonnet 3.5 进行了测试,包括:

评估与发现

以下是 US AISI 和 UK AISI 对升级版 Sonnet 3.5 模型测试的部分发现。请注意,下文呈现的模型性能微小差异可能落在这些测试的误差范围内。更详细的分析可在技术报告中找到。

生物能力

AI 的快速进步正在推动生物研究多个领域的强大创新,这对科学、医学、制造业等领域的未来具有巨大前景。然而,许多生物学发现和能力具有双重用途,这意味着生物学领域的新发现既可用于促进有益成果,也可能用于潜在有害目的。

为更好地了解升级版 Sonnet 3.5 的相对生物能力,包括其可能被滥用的方式,US AISI 和 UK AISI 重点评估了模型在一系列实际研究任务上的表现。

以下是关于生物能力发现的高层概述。请注意,这些发现仅基于 US AISI 的测试,因为 UK AISI 目前暂不发布该领域的发现。

主要发现:

网络能力

AI 系统的进步可能使日益复杂的网络任务实现自动化。这些能力同样具有双重用途,既可被用于加强网络防御,也可被恶意利用以攻击计算机系统。

为更好地了解升级版 Sonnet 3.5 的相对能力,US AISI 和 UK AISI 评估了模型在一系列可能用于恶意任务(如入侵计算机系统)的网络技能上的表现。

主要发现:

软件与 AI 开发评估

AI 系统本身正成为开发这些技术的工程师越来越有用的工具。即使 AI 系统无法独立完成给定任务,它也可被部署来帮助开发或增强其他软件,使其更强大。简而言之,先进的 AI 系统可以使现有技术更有效。

为了解升级版 Sonnet 3.5 对软件和 AI 开发任务的相对影响,US AISI 和 UK AISI 将模型设置为一个自动化 agent,赋予其访问各种基本软件开发工具的权限,然后测试其执行常见工程任务的技能和能力。

主要发现:

防护措施有效性

许多 AI 开发者在其系统中构建了防护措施,以检测并阻止模型响应用户的潜在有害请求。此类防护措施是一道重要的防线,但目前用户仍可通过一系列对抗性输入(即“越狱”)来规避它们,从而诱使模型回答恶意请求。

为测试升级版 Sonnet 3.5 防护措施的有效性,US AISI 和 UK AISI 对升级版 Sonnet 3.5 进行了红队测试,以确定其对此类越狱的鲁棒性。

尽管 US AISI 和 UK AISI 的防护措施评估旨在告知开发者如何更好地保护 AI 系统免受故意滥用,但值得强调的是,此类防护措施并非模型提供者防止滥用的唯一手段,且本次评估结果本身无法确定模型的风险。此外,什么构成有害请求通常是主观的。不同模型提供者对定义其模型的可接受使用有不同的方法,这些方法在不同司法管辖区和本地环境之间也存在差异——包括美国和英国之间。

主要发现:

结论

虽然这些测试遵循了当前的最佳实践,但发现应被视为初步结果。这些测试是在有限的时间和资源下进行的,如果延长测试时间,可能会扩大发现范围及后续得出的结论。

AI 安全科学是一个新兴且快速发展的领域。开展这些独立的安全评估有助于提高未来评估的精确性和鲁棒性,从而使政府能够领先于新兴风险和能力。US AISI 和 UK AISI 计划在每次后续工作中迭代并扩展评估范围、方法和测试工具。我们期待科学界的反馈,以帮助加强这项关键工作,并推动 AI 安全科学的发展。

阅读完整报告此处

本博客由美国 AISI 安全研究所同步发布于此

译自 UK AI Security Institute · 录于 二〇二六年五月十六日