UK AI Security Institute

结构化引出实验协议

A structured protocol for elicitation experiments

二〇二六年五月十五日 · 英文原文

英国人工智能安全研究所(AISI)评估科学团队在过去两个月内标准化了能力激发(elicitation)实验实践,旨在通过prompt设计、外部工具访问、agent scaffold及多agent设置等方法解锁模型训练后的潜在能力。研究表明,这些技术可将模型性能提升相当于训练计算量增加五到二十倍。AISI发布了结构化能力激发最佳实践清单,涵盖科学严谨性、内部知识共享及技艺规范,以支持网络、自主系统和犯罪滥用等风险领域的评估,并推动跨社群共享实践。

识别危险AI能力需要对模型在其能力上限进行严格评估——这一过程远非直截了当。在模型训练完成后,有多种方法可以提升其性能,从精心设计的prompt到外部工具访问。我们需要能够揭示模型可被用于实现全部能力的评估实践。

这些实践属于elicitation(能力激发) 的范畴,它在安全与安保工作中扮演着关键角色。做得好,它有助于我们避免低估模型的能力,从而提高与风险阈值相关声明的准确性和可信度。这种精细化的评估直接指导我们在AISI(英国人工智能安全研究所)如何测试模型,并支持英国政府对AI相关风险的理解。

但能力激发很难做好。它既是科学,也是技艺——当前方法往往不一致,且在不同模型和任务之间可迁移性差。因此,很难跨不同情境积累洞见或应用经验。

过去两个月,AISI评估科学团队已在我们各工作流中标准化了能力激发实验实践,以确保实验更具可重复性、可比性和可分析性。这篇博客解释了为什么能力激发如此重要,并总结了我们的方法。

你也可以阅读我们的完整能力激发最佳实践清单

什么是能力激发?

能力激发实验旨在解锁或增强模型训练后的潜在能力,以便最好地理解其能力概况。技术包括:

与简单查询相比,所有这些方法都鼓励模型生成更准确的响应,并遵循更有效和高效的行动序列。

为什么能力激发很重要?

进行能力激发实验对于准确估计AI系统的全部潜力至关重要,尤其是在风险相关场景中。没有这些技术,我们可能会严重低估模型能实现什么,以及熟练或恶意用户通过解锁隐藏能力可能达成什么。研究表明,能力激发技术可以显著提升模型性能,其改进幅度相当于将训练计算量增加五到二十倍

AISI的能力激发工作

避免低估风险相关能力是AISI的一个关键优先事项。这就是为什么我们在所有主要风险领域(包括网络、自主系统和犯罪滥用)开展能力激发研究。

结构化的能力激发协议

为支持这项工作,我们开发了一个结构化能力激发协议——一份旨在指导严谨且信息丰富的实验的最佳实践清单。该协议旨在促进:

#1 科学严谨性

该清单提供了实验设计的最佳实践,包括建立适当的基线、确定特定的分析类型以及进行试点研究。

我们还确保与核心机器学习标准保持一致,例如正确处理训练-测试分布偏移和避免数据泄露。

#2 内部知识共享

为确保团队内部标准一致,我们使用统一的格式和共享文档报告结果。研究人员报告正面和负面结果,以避免重复工作并完善我们的集体方法。

#3 能力激发技艺

我们的清单提供了关于有效prompt设计和agent scaffold构建的指导,以确保我们能够激发所测试模型的全部能力。它涵盖了检测和修复严重故障、确保适当使用外部工具,以及穷尽可能提升模型性能的prompt技术(包括chain-of-thought推理)。

某些要素——尤其是那些与能力激发更直观或创造性方面相关的——被视为不断演进的规范,由AISI不断壮大的实践社群塑造。我们已成立一个专门的工作组来协调持续的努力。

通过能力激发对威胁行为者建模

能力激发实验还帮助我们根据不同类型恶意行为者可用的技能、知识和资源,将模型的能力置于具体情境中。这些行为者在应用能力激发技术的技术能力、制定有效prompt和评估输出的领域专业知识水平,以及获取更复杂方法(如多agent框架)所需计算资源的途径方面,可能存在很大差异。

能力激发作为预测工具

我们还认为,能力激发实验作为预测工具显示出前景,可作为模型未来能力走向的代理指标。这是我们持续关注的领域,因为它可能提供一种低成本的方法来预测大型语言模型未来的能力水平。

构建共享的能力激发实践

展望未来,我们认为必须在AI安全、安保以及更广泛的能力社区中建立共享的能力激发实践。这将需要通用工具、共享规范,以及负责任地交流最佳实践和实证结果的空间。合作有助于推进我们对如何激发当前和未来模型全部能力(既有有益的,也有危险的)的集体理解。我们希望我们的最佳实践清单能够帮助奠定这一基础。

如果你正在从事评估、红队测试、风险建模或应用对齐工作,我们鼓励你将有效的能力激发作为方法的核心组成部分——并为一个致力于做好这项工作的不断壮大的实践社群做出贡献。

译自 UK AI Security Institute · 录于 二〇二六年五月十五日