Anthropic 升级版 Claude 3.5 Sonnet 的部署前评估
Pre-deployment evaluation of Anthropic’s upgraded Claude 3.5 Sonnet
英国AI安全研究所(UK AISI)与美国AI安全研究所(US AISI)对Anthropic于2024年10月22日发布的升级版Claude 3.5 Sonnet进行了联合预部署评估。测试涵盖生物能力、网络能力、软件与AI开发及防护措施有效性四个领域,采用问答、agent任务、定性探查和红队测试等方法。在网络安全挑战中,US AISI测试中模型解决率为32.5%,UK AISI测试中为36%;在软件工程任务中,UK AISI测试中成功率为66%。防护措施在多数越狱测试中被规避。评估结果被视为初步发现。
致读者:我们已于 2025 年 2 月 14 日更名为 AI 安全研究所。更多信息请阅读此处。_
引言
英国人工智能安全研究所(UK AISI)与美国人工智能安全研究所(US AISI)对 Anthropic 的最新模型——升级版 Claude 3.5 Sonnet(于 2024 年 10 月 22 日发布)进行了联合预部署评估。
以下是所开展评估的高层概述,以及各测试领域的发现摘要。更详细的技术报告可查阅此处。
联合安全研究与测试工作概述
US AISI 和 UK AISI 在有限时间内对升级版 Sonnet 3.5 模型进行了预部署访问测试。测试由两所研究所的专家工程师、科学家和领域专家执行,并在模型公开发布前将发现结果分享给 Anthropic。
US AISI 和 UK AISI 分别进行了独立但互补的测试,以评估模型在四个领域的能力:(1) 生物能力、(2) 网络能力、(3) 软件与 AI 开发,以及 (4) 防护措施有效性。
为评估升级版 Sonnet 3.5 的相对能力及其在上述四个领域的潜在现实影响,US AISI 和 UK AISI 将其性能与一系列类似参考模型进行了比较:Anthropic 先前版本的 Sonnet 3.5、OpenAI 的 o1-preview 以及 OpenAI 的 GPT-4o。
这些比较仅旨在评估升级版 Sonnet 3.5 的相对能力提升,以改进对评估结果的科学解读。
方法
US AISI 和 UK AISI 通过一系列技术对升级版 Sonnet 3.5 进行了测试,包括:
- 问答:要求模型正确回答一系列测试特定主题知识或问题解决能力的问题。答案通常由另一模型自动评分,并由了解正确答案的人类进行复核。
- Agent 任务:模型在虚拟环境中作为 agent 运行,被赋予一个待完成的任务,提供一系列软件工具的使用权限,并提示其采取一系列步骤,直到成功完成任务或达到最大步骤数而未成功。
- 定性探查:科学专家在模型运行时对其进行审查,以更详细地了解其能力和局限性。
- 红队测试:机器学习专家尝试开发越狱(jailbreak)或其他对抗性输入,以诱使模型回答恶意请求。
评估与发现
以下是 US AISI 和 UK AISI 对升级版 Sonnet 3.5 模型测试的部分发现。请注意,下文呈现的模型性能微小差异可能落在这些测试的误差范围内。更详细的分析可在技术报告中找到。
生物能力
AI 的快速进步正在推动生物研究多个领域的强大创新,这对科学、医学、制造业等领域的未来具有巨大前景。然而,许多生物学发现和能力具有双重用途,这意味着生物学领域的新发现既可用于促进有益成果,也可能用于潜在有害目的。
为更好地了解升级版 Sonnet 3.5 的相对生物能力,包括其可能被滥用的方式,US AISI 和 UK AISI 重点评估了模型在一系列实际研究任务上的表现。
以下是关于生物能力发现的高层概述。请注意,这些发现仅基于 US AISI 的测试,因为 UK AISI 目前暂不发布该领域的发现。
主要发现:
- US AISI 使用一组多项选择研究任务问题对升级版 Sonnet 3.5 进行了评估,其性能与参考模型相当,且在大多数情况下显著低于测量到的人类专家基线。
- US AISI 试点了一种评估方法,通过为 AI 模型提供生物信息学工具来辅助研究任务问题。使用 Sonnet 3.5 进行测试时,模型性能超越了单独模型,有时甚至超过了测量到的人类专家基线。
网络能力
AI 系统的进步可能使日益复杂的网络任务实现自动化。这些能力同样具有双重用途,既可被用于加强网络防御,也可被恶意利用以攻击计算机系统。
为更好地了解升级版 Sonnet 3.5 的相对能力,US AISI 和 UK AISI 评估了模型在一系列可能用于恶意任务(如入侵计算机系统)的网络技能上的表现。
主要发现:
- US AISI 使用一套 40 个公开可用的网络安全挑战对升级版 Sonnet 3.5 进行了评估。升级版模型成功解决了 32.5% 的任务,而评估中表现最佳的参考模型解决率为 35%。
- UK AISI 使用一套 47 个网络安全挑战对升级版 Claude 3.5 Sonnet 进行了评估,其中 15 个公开可用,32 个为内部开发。升级版模型解决了 36% 的“网络安全学徒”级别任务,而同一级别上表现最佳的参考模型解决率为 29%。
软件与 AI 开发评估
AI 系统本身正成为开发这些技术的工程师越来越有用的工具。即使 AI 系统无法独立完成给定任务,它也可被部署来帮助开发或增强其他软件,使其更强大。简而言之,先进的 AI 系统可以使现有技术更有效。
为了解升级版 Sonnet 3.5 对软件和 AI 开发任务的相对影响,US AISI 和 UK AISI 将模型设置为一个自动化 agent,赋予其访问各种基本软件开发工具的权限,然后测试其执行常见工程任务的技能和能力。
主要发现:
- US AISI 使用一套公开可用的挑战对升级版 Sonnet 3.5 进行了评估,其中 agent 必须改进 ML 模型的质量或速度。在 0%(模型未改进)到 100%(人类对模型的最大改进程度)的评分范围内,模型获得了平均 57% 的改进分数——而评估中表现最佳的参考模型平均改进分数为 48%。
- UK AISI 使用一套内部开发的评估对升级版 Sonnet 3.5 进行了测试,这些评估包括涵盖广泛难度级别的软件工程、通用推理和 agent 任务。升级版模型在软件工程任务上的成功率为 66%,而评估中表现最佳的参考模型为 64%;在通用推理任务上的成功率为 47%,而表现最佳的参考模型为 35%。
防护措施有效性
许多 AI 开发者在其系统中构建了防护措施,以检测并阻止模型响应用户的潜在有害请求。此类防护措施是一道重要的防线,但目前用户仍可通过一系列对抗性输入(即“越狱”)来规避它们,从而诱使模型回答恶意请求。
为测试升级版 Sonnet 3.5 防护措施的有效性,US AISI 和 UK AISI 对升级版 Sonnet 3.5 进行了红队测试,以确定其对此类越狱的鲁棒性。
尽管 US AISI 和 UK AISI 的防护措施评估旨在告知开发者如何更好地保护 AI 系统免受故意滥用,但值得强调的是,此类防护措施并非模型提供者防止滥用的唯一手段,且本次评估结果本身无法确定模型的风险。此外,什么构成有害请求通常是主观的。不同模型提供者对定义其模型的可接受使用有不同的方法,这些方法在不同司法管辖区和本地环境之间也存在差异——包括美国和英国之间。
主要发现:
- US AISI 使用一系列公开可用的越狱方法对升级版 Sonnet 3.5 进行了测试,在大多数情况下,US AISI 测试的内置版本防护措施因此被规避,意味着模型提供了原本会被阻止的答案。这与先前关于其他 AI 系统脆弱性的研究一致。
- UK AISI 使用一系列公开和内部开发的越狱方法对升级版 Sonnet 3.5 进行了测试,同样发现 UK AISI 测试的防护措施版本可被常规规避。这同样与先前关于其他 AI 系统防护措施脆弱性的研究一致。
结论
虽然这些测试遵循了当前的最佳实践,但发现应被视为初步结果。这些测试是在有限的时间和资源下进行的,如果延长测试时间,可能会扩大发现范围及后续得出的结论。
AI 安全科学是一个新兴且快速发展的领域。开展这些独立的安全评估有助于提高未来评估的精确性和鲁棒性,从而使政府能够领先于新兴风险和能力。US AISI 和 UK AISI 计划在每次后续工作中迭代并扩展评估范围、方法和测试工具。我们期待科学界的反馈,以帮助加强这项关键工作,并推动 AI 安全科学的发展。
阅读完整报告此处。
本博客由美国 AISI 安全研究所同步发布于此。