OpenAI o1 模型部署前评估

Pre-Deployment evaluation of OpenAI’s o1 model

二〇二六年五月十六日 · 英文原文

摘要

英国AI安全研究所（UK AISI）与美国AI安全研究所（US AISI）对OpenAI于2024年12月5日发布的o1模型进行了联合预部署评估，测试涵盖网络安全、生物能力及软件与AI开发三个领域，并与o1-preview、GPT-4o及Claude 3.5 Sonnet等参考模型对比。在40项网络安全挑战中，o1解决45%，优于参考模型最高35%，并额外解决三个密码学相关任务；生物能力测试中o1与最佳参考模型相当，配备生物信息学工具后性能提升；软件工程任务中o1成功率为50%，低于参考模型67%。评估由两所研究所专家执行，US AISI获国家安全局、网络安全与基础设施安全局、国立卫生研究院及国土安全部专家协助。

致读者：我们已于2025年2月14日更名为AI安全研究所。了解更多信息请点击此处。_

引言

英国人工智能安全研究所（UK AISI）与美国人工智能安全研究所（US AISI）对OpenAI的最新模型o1（2024年12月5日发布）进行了联合预部署评估。

以下是评估工作的高层概述，以及各测试领域的发现摘要。更详细的技术报告可点击此处查阅。

联合安全研究与测试工作概述

US AISI和UK AISI在o1模型预部署访问的有限时间内进行了测试。测试由两所研究所的专家工程师、科学家和领域专家执行，并在模型公开发布前将发现结果分享给OpenAI。

US AISI和UK AISI分别进行了独立但互补的测试，以评估模型在三个领域的能力：（1）网络安全能力，（2）生物能力，（3）软件与AI开发能力。

为评估o1的相对能力及其在这些领域的潜在现实影响，US AISI和UK AISI将其性能与一系列类似参考模型进行了比较：OpenAI的o1-preview、OpenAI的GPT-4o，以及Anthropic的Claude 3.5 Sonnet（升级版和早期版本）。

这些比较仅用于评估o1的相对能力提升，以改进对评估结果的科学解读。

所测试的o1版本在工具调用和输出格式方面存在若干性能问题。US AISI和UK AISI通过调整agent设计（包括修改prompt和引入简单的错误恢复机制）来解决这些问题。以下结果反映了o1在此类脚手架支持下的性能。若o1版本针对工具使用进行了更优优化，可能在许多评估中表现更佳。本报告不对其他版本o1的性能做出任何声明。

方法论

US AISI和UK AISI通过多种技术对模型进行了测试，包括：

问答：要求模型正确回答一系列测试特定主题知识或问题解决能力的问题。答案通常由另一模型自动评分，再由了解正确答案的人员进行核查。
Agent任务：模型在虚拟环境中作为agent运行，被赋予完成任务的目标，并提供一系列软件工具，提示其逐步操作直至成功完成任务或达到最大步数限制。
定性探查：科学专家在模型运行过程中对其进行审查，以更详细地了解其能力和局限性。

US AISI的网络安全能力评估得到了国家安全局和网络安全与基础设施安全局领域专家的协助，生物能力评估则得到了国立卫生研究院和国土安全部领域专家的协助。

评估与发现

以下是US AISI和UK AISI对OpenAI o1模型测试的部分发现。

在测试的三个领域中，o1的性能总体上与参考模型相当——但在与密码学相关的网络安全挑战中表现出额外能力。

请注意，以下模型性能的较小差异可能处于这些测试的误差范围内。更多详情请参阅技术报告。

网络安全能力

AI系统的进步可能使日益复杂的网络任务实现自动化。这些能力也具有双重用途，即既可用于加强网络防御，也可被恶意利用以入侵计算机系统。

为更好地了解o1的相对能力，US AISI和UK AISI评估了模型在一系列可能用于恶意任务（如入侵计算机系统）的网络技能上的表现。

主要发现：

US AISI使用一套40个公开可用的网络安全挑战对o1进行了评估。该模型解决了所有任务的45%，而表现最佳的参考模型解决率为35%。o1模型解决了所有其他参考模型能解决的挑战，并额外解决了三个与密码学相关的挑战，其他模型均未能完成。
UK AISI使用一套47个网络安全挑战对o1进行了评估，其中15个为公开挑战，32个为内部开发挑战。该模型解决了"网络安全学徒"级别任务的36%，而同一级别表现最佳的参考模型解决率为46%。

生物能力

AI的快速发展正在推动生物研究多个领域的强大创新，这为科学、医学、制造业等领域的未来带来了巨大希望。然而，许多生物发现和能力具有双重用途，即生物学领域的新发现既可用于促进有益结果，也可能被用于潜在有害目的。

为更好地了解OpenAI o1模型的相对生物能力（包括其可能被滥用的方式），US AISI和UK AISI重点评估了模型在一系列实际研究任务上的表现。

以下是生物能力相关发现的高层概述。请注意，这些发现仅基于US AISI的测试，UK AISI目前暂不发布该领域的发现。

主要发现：

总体而言，US AISI发现，在一组多项选择的生物学研究任务问题中，o1模型的性能与测试中表现最佳的参考模型大致相当。
与之前的测试一样，US AISI采用了一种评估方法，通过为AI模型提供生物信息学工具来辅助解决这些研究任务问题。当o1配备这些额外工具时，其在研究问题上的性能超过了仅使用模型本身的表现，尤其是在DNA和蛋白质测序相关任务上。

软件与AI开发评估

AI系统本身正成为开发这些技术的工程师日益有用的工具。即使AI系统无法独立完成给定任务，它也可用于帮助开发或增强其他软件，使其更强大。简而言之，先进的AI系统可以使现有技术更有效。

为了解OpenAI o1模型对软件和AI开发任务的相对影响，US AISI和UK AISI将模型设置为一个自动化agent，配备各种基本软件开发工具，然后测试其执行常见工程任务的技能和能力。

主要发现：

US AISI使用一套公开可用的挑战对o1进行了评估，其中agent必须改进ML模型的质量或速度。在0%（模型未改进）到100%（人类实现的最大改进水平）的评分范围内，该模型获得了平均48%的改进分数——而表现最佳的参考模型平均改进分数为49%。
UK AISI使用一套内部开发的评估对o1进行了测试，这些评估涵盖软件工程、通用推理和agent任务，难度范围广泛。升级后的模型在软件工程任务上的成功率为50%，而表现最佳的参考模型为67%；在通用推理任务上的成功率为57%，而表现最佳的参考模型为58%。

结论

尽管这些测试遵循了当前最佳实践，但发现结果应视为初步结论。这些测试是在有限时间和资源下进行的，若延长测试时间，可能会扩大发现范围并影响后续结论。

AI安全科学是一个新兴且快速发展的领域。开展这些独立安全评估有助于提高未来评估的精确性和稳健性，使政府能够及时应对新兴风险和能力的出现。

US AISI和UK AISI计划在后续工作中迭代并扩展评估范围、方法论和测试工具。我们期待科学界的反馈，以帮助加强这一关键工作，推动AI安全科学的发展。

阅读完整报告。

本博客由美国AI安全研究所同步发布，点击此处查看。

译自 UK AI Security Institute · 录于二〇二六年五月十六日