UK AI Security Institute

OpenAI o1 模型部署前评估

Pre-Deployment evaluation of OpenAI’s o1 model

二〇二六年五月十六日 · 英文原文

英国AI安全研究所(UK AISI)与美国AI安全研究所(US AISI)对OpenAI于2024年12月5日发布的o1模型进行了联合预部署评估,测试涵盖网络安全、生物能力及软件与AI开发三个领域,并与o1-preview、GPT-4o及Claude 3.5 Sonnet等参考模型对比。在40项网络安全挑战中,o1解决45%,优于参考模型最高35%,并额外解决三个密码学相关任务;生物能力测试中o1与最佳参考模型相当,配备生物信息学工具后性能提升;软件工程任务中o1成功率为50%,低于参考模型67%。评估由两所研究所专家执行,US AISI获国家安全局、网络安全与基础设施安全局、国立卫生研究院及国土安全部专家协助。

致读者:我们已于2025年2月14日更名为AI安全研究所。了解更多信息请点击此处。_

引言

英国人工智能安全研究所(UK AISI)与美国人工智能安全研究所(US AISI)对OpenAI的最新模型o1(2024年12月5日发布)进行了联合预部署评估。

以下是评估工作的高层概述,以及各测试领域的发现摘要。更详细的技术报告可点击此处查阅。

联合安全研究与测试工作概述

US AISI和UK AISI在o1模型预部署访问的有限时间内进行了测试。测试由两所研究所的专家工程师、科学家和领域专家执行,并在模型公开发布前将发现结果分享给OpenAI。

US AISI和UK AISI分别进行了独立但互补的测试,以评估模型在三个领域的能力:(1)网络安全能力,(2)生物能力,(3)软件与AI开发能力

为评估o1的相对能力及其在这些领域的潜在现实影响,US AISI和UK AISI将其性能与一系列类似参考模型进行了比较:OpenAI的o1-preview、OpenAI的GPT-4o,以及Anthropic的Claude 3.5 Sonnet(升级版和早期版本)。

这些比较仅用于评估o1的相对能力提升,以改进对评估结果的科学解读。

所测试的o1版本在工具调用和输出格式方面存在若干性能问题。US AISI和UK AISI通过调整agent设计(包括修改prompt和引入简单的错误恢复机制)来解决这些问题。以下结果反映了o1在此类脚手架支持下的性能。若o1版本针对工具使用进行了更优优化,可能在许多评估中表现更佳。本报告不对其他版本o1的性能做出任何声明。

方法论

US AISI和UK AISI通过多种技术对模型进行了测试,包括:

US AISI的网络安全能力评估得到了国家安全局和网络安全与基础设施安全局领域专家的协助,生物能力评估则得到了国立卫生研究院和国土安全部领域专家的协助。

评估与发现

以下是US AISI和UK AISI对OpenAI o1模型测试的部分发现。

在测试的三个领域中,o1的性能总体上与参考模型相当——但在与密码学相关的网络安全挑战中表现出额外能力。

请注意,以下模型性能的较小差异可能处于这些测试的误差范围内。更多详情请参阅技术报告

网络安全能力

AI系统的进步可能使日益复杂的网络任务实现自动化。这些能力也具有双重用途,即既可用于加强网络防御,也可被恶意利用以入侵计算机系统。

为更好地了解o1的相对能力,US AISI和UK AISI评估了模型在一系列可能用于恶意任务(如入侵计算机系统)的网络技能上的表现。

主要发现:

生物能力

AI的快速发展正在推动生物研究多个领域的强大创新,这为科学、医学、制造业等领域的未来带来了巨大希望。然而,许多生物发现和能力具有双重用途,即生物学领域的新发现既可用于促进有益结果,也可能被用于潜在有害目的。

为更好地了解OpenAI o1模型的相对生物能力(包括其可能被滥用的方式),US AISI和UK AISI重点评估了模型在一系列实际研究任务上的表现。

以下是生物能力相关发现的高层概述。请注意,这些发现仅基于US AISI的测试,UK AISI目前暂不发布该领域的发现。

主要发现:

软件与AI开发评估

AI系统本身正成为开发这些技术的工程师日益有用的工具。即使AI系统无法独立完成给定任务,它也可用于帮助开发或增强其他软件,使其更强大。简而言之,先进的AI系统可以使现有技术更有效。

为了解OpenAI o1模型对软件和AI开发任务的相对影响,US AISI和UK AISI将模型设置为一个自动化agent,配备各种基本软件开发工具,然后测试其执行常见工程任务的技能和能力。

主要发现:

结论

尽管这些测试遵循了当前最佳实践,但发现结果应视为初步结论。这些测试是在有限时间和资源下进行的,若延长测试时间,可能会扩大发现范围并影响后续结论。

AI安全科学是一个新兴且快速发展的领域。开展这些独立安全评估有助于提高未来评估的精确性和稳健性,使政府能够及时应对新兴风险和能力的出现。

US AISI和UK AISI计划在后续工作中迭代并扩展评估范围、方法论和测试工具。我们期待科学界的反馈,以帮助加强这一关键工作,推动AI安全科学的发展。

阅读完整报告

本博客由美国AI安全研究所同步发布,点击此处查看。

译自 UK AI Security Institute · 录于 二〇二六年五月十六日