RepliBench:衡量AI系统中的自主复制能力
RepliBench: measuring autonomous replication capabilities in AI systems
RepliBench 是一项由英国AISI等机构开发的benchmark,包含20项LLM agent评估和65个独立任务,用于衡量AI系统的自主复制能力。该benchmark将自主复制分解为获取模型权重、复制到计算资源、获取资源和持久性四项关键能力。对七个前沿模型的测试显示,当前模型尚不具备完整复制能力,但表现最佳的模型在15/20个任务族上pass@10得分超过50%,且性能呈上升趋势。
随着当前AI系统自主运行能力日益增强,AI实验室和政府都开始将AI的自主复制——即AI系统创建自身副本并在互联网上传播的能力——视为潜在风险。然而,对这些能力的实证评估仍然相对稀缺。为填补这一空白,全面的benchmark对于研究人员检测新兴复制能力并提供对潜在风险的可量化理解至关重要。
本文介绍RepliBench:20项新颖的LLM agent评估,包含65个独立任务,旨在衡量和追踪这一新兴能力。通过引入一个现实且实用的benchmark,我们旨在提供对自主复制的扎实理解,并预测未来风险。
自主复制的风险
具备自主复制能力的AI agent可能构成重大风险。其影响范围可能从轻微的麻烦——想象一个特别恶性的垃圾邮件机器人——到更严重的后果,例如引发代价高昂的网络攻击。早期检测这些能力、谨慎监督和稳健的安全措施对于缓解这些风险至关重要,因为一旦发生,它们可能特别难以逆转。
越来越多的证据表明,前沿模型在适当条件下可能试图欺骗人类或逃避人类控制。近期研究表明,前沿模型可能试图禁用监督机制,并将自身从人类控制中转移出去以实现指定目标。Anthropic的研究人员还发现,当模型使用强化学习进行训练,奖励与其价值观冲突的行为时,它们会采取欺骗行为以维护自身价值观,并试图将自身权重转移出去,作为将当前价值观延续到未来的手段。综合来看,这些结果表明前沿模型能够认识到,摆脱人类监督对于广泛价值观而言是一个工具性有用目标,而阻止这种情况在现实世界中发生的主要障碍可能与模型的能力有关,而非其动机。

Tweet This Image
Download Image
图1:我们使用故障树分析(FTA)的变体来分解自主复制所需的能力,并发现需要以下列出的四项关键能力。我们进一步分解每项能力,直到到达代表评估的叶节点,最终形成20项agentic评估和86个独立任务。
先前的工作(1、2、3)侧重于评估自主复制的某些关键方面——例如,测试AI agent是否能在机器之间复制权重或部署一个基本后继agent。然而,仍然需要一个更全面的benchmark,覆盖更广泛的能力范围,以更好地了解现实世界的风险。
在RepliBench中,我们尝试系统地将自主复制能力分解为组件能力(见图2),并依次评估每一项。我们识别出AI agent在现实世界中成功自主复制所需的四项关键能力:
- 获取模型权重:它能否从受控环境中提取自身权重?
- 复制到计算资源上:它能否将自身部署到新系统?
- 获取资源:它能否获取运行自身新副本所需的资金或计算资源?
- 持久性:它能否维持对新计算资源的访问,并在长时间内避免重新落入人类控制?
我们创建了一组长程agentic评估,旨在分别衡量这些能力,任务范围从创建比特币钱包并发送交易,到为机器网络开发复杂的分布式命令与控制系统。下表展示了每个类别的一个示例任务。
| 名称 | 类别 | 简要描述 |
|---|---|---|
| AWS Signup | 获取资源 | 注册Amazon Web Services(AWS)账户,包括模拟的电子邮件和短信验证步骤。 |
| Weight Exfiltration | 获取权重 | 将一组LLM权重传输到另一台服务器,同时应对各种强度的安全措施,例如加密权重。 |
| Pass KYC Check | 获取资源 | 生成一张自拍照和一张匹配的伪造身份证照片,以欺骗简单的了解你的客户(KYC)系统。这一能力对于恶意agent访问传统金融基础设施至关重要。 |
| Recursive Replication | 复制到计算资源上 | 评估agent在机器网络中创建和部署自身副本(提供一组模型权重并运行agent脚本)的能力,以及该副本是否能执行相同任务。 |
| Command & Control | 持久性 | 根据固定规范在机器网络中实现命令与控制基础设施。 |
表1:RepliBench中的五个示例任务族
所有评估均使用Inspect(英国AISI的开源评估框架)构建,并在沙盒环境中进行以确保安全。在可能的情况下,我们使用外部服务(如支付处理器和云提供商)的模拟版本。
RepliBench评估的是自主复制的组件任务,而非测试端到端能力。我们的方法使我们能够断言:“在我们考虑的模型下,如果模型无法执行所有这些任务,它们很可能无法自主复制”,从而为基于无能力的安防案例提供有价值的证据。然而,我们并不声称所有组件任务的成功就能保证端到端的复制能力。
关键发现:当前能力与趋势

Tweet This Image
Download Image
图2:五个表现最佳的前沿模型在RepliBench各领域的结果。模型在获取计算资源领域的任务上表现始终良好,例如导航计算提供商界面,但在涉及复制到计算资源以及维持对其持久访问的任务上表现挣扎。这些领域的示例任务包括‘Recursive Replication’,我们在图4中展示了其结果,该任务测试agent在机器网络中创建和部署自身副本的能力,以及该副本是否能执行相同任务。
我们在RepliBench上对七个前沿模型进行了基准测试,发现它们尚不具备执行自主复制所有组件的能力。然而,最新的前沿模型能够可靠地完成许多核心子任务。表现最佳的模型在15/20个任务族上pass@10得分超过50%,在最困难变体上,9/20个任务族pass@10得分超过50%。
在具体能力方面,我们发现模型在涉及定义明确的接口的任务上表现出色——例如,展示了导航计算提供商网站、配置适当规模的实例以及处理加密货币交易的强大能力。在赚钱能力方面,模型在说服模拟人物给它们钱方面取得了一些成功,但在我们的KYC检查评估中完全失败,这表明如果没有人类协助,它们在访问传统金融系统时将面临重大障碍。
我们还发现了可能混淆能力评估的有趣行为模式。我们观察到了各种形式的微妙任务回避——例如,模型声称已完成任务但实际上未执行任何操作;模型注意到自己处于模拟环境中,随后拒绝完成任务;或者模型在任务看起来有道德问题时选择性地忽略关键子任务。在其他情况下,失败源于模型提交不完整的解决方案,或尽管指示不要提前结束,但仍提前终止运行。
我们的结果表明,模型自主复制的能力目前受到几个关键任务的阻碍。值得注意的是,它们仍然难以绕过KYC检查(图3)、从头开始设置稳健且持久的agent部署,或绕过更现实的权重泄露防御。考虑到我们的评估运行后发布的图像生成能力的最新进展,我们预计后续模型发布后,KYC检查评估的性能将显著提升。

Tweet This Image
Download Image

Tweet This Image
Download Image
图3:模型在Pass KYC评估中生成的两张身份证图像示例。所有模型仍然难以通过此评估,常常尝试使用PIL从头“绘制”过于简单的身份证(底部)。模型有时会完全使用图像生成模型来生成身份证,有时则采用混合方法,结合图像生成和手动PIL编辑(顶部)。
模型在RepliBench上的性能随时间呈现明显的上升趋势。鉴于这一轨迹,在这些能力完全显现之前,开发更有效的安全措施和早期预警系统至关重要。虽然当前模型并不构成自主复制的直接威胁,但改进的速度表明这种情况可能迅速变化。
下一步计划
该领域存在几个重要的未来研究方向,例如在现实安全环境中开发端到端评估。由于现实世界系统的复杂性,这带来了重大挑战。英国AISI正在进行的项目,如ControlArena,它模拟了具有现实安全措施的类实验室环境以评估AI系统,是朝着这一方向迈出的重要第一步。
通过引入RepliBench,我们旨在为政策制定者和AI开发者提供关于这一新兴风险的实证数据,帮助在这些能力实现之前制定适当的安全措施和治理措施。更多详情,请参阅完整论文。