Anthropic 升级版 Claude 3.5 Sonnet 的部署前评估

Pre-deployment evaluation of Anthropic’s upgraded Claude 3.5 Sonnet

二〇二六年五月十六日 · 英文原文

摘要

英国AI安全研究所（UK AISI）与美国AI安全研究所（US AISI）对Anthropic于2024年10月22日发布的升级版Claude 3.5 Sonnet进行了联合预部署评估。测试涵盖生物能力、网络能力、软件与AI开发及防护措施有效性四个领域，采用问答、agent任务、定性探查和红队测试等方法。在网络安全挑战中，US AISI测试中模型解决率为32.5%，UK AISI测试中为36%；在软件工程任务中，UK AISI测试中成功率为66%。防护措施在多数越狱测试中被规避。评估结果被视为初步发现。

致读者：我们已于 2025 年 2 月 14 日更名为 AI 安全研究所。更多信息请阅读此处。_

引言

英国人工智能安全研究所（UK AISI）与美国人工智能安全研究所（US AISI）对 Anthropic 的最新模型——升级版 Claude 3.5 Sonnet（于 2024 年 10 月 22 日发布）进行了联合预部署评估。

以下是所开展评估的高层概述，以及各测试领域的发现摘要。更详细的技术报告可查阅此处。

联合安全研究与测试工作概述

US AISI 和 UK AISI 在有限时间内对升级版 Sonnet 3.5 模型进行了预部署访问测试。测试由两所研究所的专家工程师、科学家和领域专家执行，并在模型公开发布前将发现结果分享给 Anthropic。

US AISI 和 UK AISI 分别进行了独立但互补的测试，以评估模型在四个领域的能力：(1) 生物能力、(2) 网络能力、(3) 软件与 AI 开发，以及 (4) 防护措施有效性。

为评估升级版 Sonnet 3.5 的相对能力及其在上述四个领域的潜在现实影响，US AISI 和 UK AISI 将其性能与一系列类似参考模型进行了比较：Anthropic 先前版本的 Sonnet 3.5、OpenAI 的 o1-preview 以及 OpenAI 的 GPT-4o。

这些比较仅旨在评估升级版 Sonnet 3.5 的相对能力提升，以改进对评估结果的科学解读。

方法

US AISI 和 UK AISI 通过一系列技术对升级版 Sonnet 3.5 进行了测试，包括：

问答：要求模型正确回答一系列测试特定主题知识或问题解决能力的问题。答案通常由另一模型自动评分，并由了解正确答案的人类进行复核。
Agent 任务：模型在虚拟环境中作为 agent 运行，被赋予一个待完成的任务，提供一系列软件工具的使用权限，并提示其采取一系列步骤，直到成功完成任务或达到最大步骤数而未成功。
定性探查：科学专家在模型运行时对其进行审查，以更详细地了解其能力和局限性。
红队测试：机器学习专家尝试开发越狱（jailbreak）或其他对抗性输入，以诱使模型回答恶意请求。

评估与发现

以下是 US AISI 和 UK AISI 对升级版 Sonnet 3.5 模型测试的部分发现。请注意，下文呈现的模型性能微小差异可能落在这些测试的误差范围内。更详细的分析可在技术报告中找到。

生物能力

AI 的快速进步正在推动生物研究多个领域的强大创新，这对科学、医学、制造业等领域的未来具有巨大前景。然而，许多生物学发现和能力具有双重用途，这意味着生物学领域的新发现既可用于促进有益成果，也可能用于潜在有害目的。

为更好地了解升级版 Sonnet 3.5 的相对生物能力，包括其可能被滥用的方式，US AISI 和 UK AISI 重点评估了模型在一系列实际研究任务上的表现。

以下是关于生物能力发现的高层概述。请注意，这些发现仅基于 US AISI 的测试，因为 UK AISI 目前暂不发布该领域的发现。

主要发现：

US AISI 使用一组多项选择研究任务问题对升级版 Sonnet 3.5 进行了评估，其性能与参考模型相当，且在大多数情况下显著低于测量到的人类专家基线。
US AISI 试点了一种评估方法，通过为 AI 模型提供生物信息学工具来辅助研究任务问题。使用 Sonnet 3.5 进行测试时，模型性能超越了单独模型，有时甚至超过了测量到的人类专家基线。

网络能力

AI 系统的进步可能使日益复杂的网络任务实现自动化。这些能力同样具有双重用途，既可被用于加强网络防御，也可被恶意利用以攻击计算机系统。

为更好地了解升级版 Sonnet 3.5 的相对能力，US AISI 和 UK AISI 评估了模型在一系列可能用于恶意任务（如入侵计算机系统）的网络技能上的表现。

主要发现：

US AISI 使用一套 40 个公开可用的网络安全挑战对升级版 Sonnet 3.5 进行了评估。升级版模型成功解决了 32.5% 的任务，而评估中表现最佳的参考模型解决率为 35%。
UK AISI 使用一套 47 个网络安全挑战对升级版 Claude 3.5 Sonnet 进行了评估，其中 15 个公开可用，32 个为内部开发。升级版模型解决了 36% 的“网络安全学徒”级别任务，而同一级别上表现最佳的参考模型解决率为 29%。

软件与 AI 开发评估

AI 系统本身正成为开发这些技术的工程师越来越有用的工具。即使 AI 系统无法独立完成给定任务，它也可被部署来帮助开发或增强其他软件，使其更强大。简而言之，先进的 AI 系统可以使现有技术更有效。

为了解升级版 Sonnet 3.5 对软件和 AI 开发任务的相对影响，US AISI 和 UK AISI 将模型设置为一个自动化 agent，赋予其访问各种基本软件开发工具的权限，然后测试其执行常见工程任务的技能和能力。

主要发现：

US AISI 使用一套公开可用的挑战对升级版 Sonnet 3.5 进行了评估，其中 agent 必须改进 ML 模型的质量或速度。在 0%（模型未改进）到 100%（人类对模型的最大改进程度）的评分范围内，模型获得了平均 57% 的改进分数——而评估中表现最佳的参考模型平均改进分数为 48%。
UK AISI 使用一套内部开发的评估对升级版 Sonnet 3.5 进行了测试，这些评估包括涵盖广泛难度级别的软件工程、通用推理和 agent 任务。升级版模型在软件工程任务上的成功率为 66%，而评估中表现最佳的参考模型为 64%；在通用推理任务上的成功率为 47%，而表现最佳的参考模型为 35%。

防护措施有效性

许多 AI 开发者在其系统中构建了防护措施，以检测并阻止模型响应用户的潜在有害请求。此类防护措施是一道重要的防线，但目前用户仍可通过一系列对抗性输入（即“越狱”）来规避它们，从而诱使模型回答恶意请求。

为测试升级版 Sonnet 3.5 防护措施的有效性，US AISI 和 UK AISI 对升级版 Sonnet 3.5 进行了红队测试，以确定其对此类越狱的鲁棒性。

尽管 US AISI 和 UK AISI 的防护措施评估旨在告知开发者如何更好地保护 AI 系统免受故意滥用，但值得强调的是，此类防护措施并非模型提供者防止滥用的唯一手段，且本次评估结果本身无法确定模型的风险。此外，什么构成有害请求通常是主观的。不同模型提供者对定义其模型的可接受使用有不同的方法，这些方法在不同司法管辖区和本地环境之间也存在差异——包括美国和英国之间。

主要发现：

US AISI 使用一系列公开可用的越狱方法对升级版 Sonnet 3.5 进行了测试，在大多数情况下，US AISI 测试的内置版本防护措施因此被规避，意味着模型提供了原本会被阻止的答案。这与先前关于其他 AI 系统脆弱性的研究一致。
UK AISI 使用一系列公开和内部开发的越狱方法对升级版 Sonnet 3.5 进行了测试，同样发现 UK AISI 测试的防护措施版本可被常规规避。这同样与先前关于其他 AI 系统防护措施脆弱性的研究一致。

结论

虽然这些测试遵循了当前的最佳实践，但发现应被视为初步结果。这些测试是在有限的时间和资源下进行的，如果延长测试时间，可能会扩大发现范围及后续得出的结论。

AI 安全科学是一个新兴且快速发展的领域。开展这些独立的安全评估有助于提高未来评估的精确性和鲁棒性，从而使政府能够领先于新兴风险和能力。US AISI 和 UK AISI 计划在每次后续工作中迭代并扩展评估范围、方法和测试工具。我们期待科学界的反馈，以帮助加强这项关键工作，并推动 AI 安全科学的发展。

阅读完整报告此处。

本博客由美国 AISI 安全研究所同步发布于此。

译自 UK AI Security Institute · 录于二〇二六年五月十六日