新型评估与Agent脚手架赏金计划

Bounty programme for novel evaluations and agent scaffolding

二〇二六年五月十六日 · 英文原文

摘要

AI安全研究所（AISI）发布悬赏计划，征集自主agent能力评估与agent脚手架方案，以测试前沿AI系统在危险能力（如网络攻击、自主复制）上的表现。申请截止延长至2024年12月14日，成功入选者可获2,000英镑计算资助，最终提交按100-200英镑/小时奖励，总金额3,000-15,000英镑。提交物需适配Inspect平台，最晚于2025年3月15日完成。

致读者：我们已于2025年2月14日更名为AI安全研究所。了解更多信息请点击此处。‍

由于申请热度超出预期，我们将初步评估或脚手架方案的提交截止日期延长至12月14日。

AI安全研究所（AISI）对先进AI系统进行跨多个潜在风险领域的评估，包括社会影响、攻击性网络能力、双重用途化学/生物学以及自主系统。

为扩大评估套件的覆盖面，我们正在寻找有才华的个人和组织，帮助我们构建评估方案，特别是针对自主系统相关风险的评估。此外，我们也在寻求授权使用能够提升相关任务性能的agent脚手架工具，以便测试前沿AI系统能力的完整边界。

本悬赏计划将直接服务于AISI评估未来AI模型、为稳健且适当的治理提供依据的工作。成功入选者将获得相应报酬。

开放危险能力评估与agent脚手架悬赏

危险能力评估用于测试前沿模型执行危险行为的能力，以及这些危险行为所需的基础技能。更细粒度的评估有助于我们制定更精确的能力阈值，为治理和政策提供依据。更全面的评估套件能确保我们在测试模型时覆盖所有可能的风险。此外，高性能的agent脚手架对于评估这些模型能力的上限至关重要，避免我们低估其潜力。

我们正在征集以下主题的申请和提案：

自主agent能力评估

这类评估用于衡量AI模型独立工作的能力，即完成可能带来风险或导致意外后果的任务。例如，我们关注AI系统在互联网上自我复制的能力，这可能削弱监督与控制。请参考我们的自主系统评估标准，并在构建评估时使用我们的模板仓库。关于评估思路、评判标准以及知识产权和报酬的详细信息，请参见此处。

Agent脚手架

Agent脚手架由一组工具、提示流程和错误处理机制组成，用于帮助agent排查工具调用过程中出现的问题。我们有意购买或授权使用最先进的agent脚手架，以提升在相关规划、执行和编码任务上的性能——参见此处的一个代表性示例。

最终提交物应为Inspect-solvers形式，并附带相关工具。该agent脚手架应有助于在Inspect平台上解决基于agent的任务。关于Inspect agent API的更多细节，请参见此处。我们已拟定了一份优先在Inspect中实现的现有agent脚手架清单，以及一些新思路。关于这些内容、评判标准以及知识产权和报酬的详细信息，请参见此处。

‍

如何申请

请通过申请表格提交申请。

申请必须于2024年11月30日前提交。 每份申请将由AISI的技术人员审阅。成功进入第二阶段（构建评估）的评估申请人将获得2,000英镑的计算费用资助。届时我们将与申请人商定最终提交的时间表。应申请人要求，我们可以为您匹配其他对类似思路感兴趣的申请人。

全额悬赏金将在提交符合我们标准的最终评估后发放。如果您的初步申请成功，我们将尽早告知您获得悬赏金的可能性。悬赏金额度将根据所需开发时间以及对照评判标准的成功程度确定。作为参考，我们预计对成功任务按每开发小时100-200英镑给予奖励。这意味着成功申请人完成一项任务可获得3,000-15,000英镑，但对于质量特别高、投入特别大的任务，我们将给予更高报酬。

‍

时间线

2024年12月14日，全球任何时区的午夜： 第一阶段申请截止。在第一阶段，您需提交评估设计方案或agent脚手架提案。2024年12月15日至2025年1月19日： 向申请人反馈意见，确认进入第二阶段。在12月14日之前收到的申请可能会提前审阅并推进。第二阶段提交时间灵活： 在第二阶段，您需构建并提交相应的评估或脚手架。最晚可于2025年3月15日提交，但我们希望大部分工作能在2025年2月15日前完成。在此期间，我们将对您的申请进行迭代反馈。

‍

答疑时间

我们此前举办了两场答疑时间，回答社区关于评估方法、重点领域以及Inspect框架的问题。

第一场答疑：2024年11月6日星期三，英国夏令时19:30–20:30
第二场答疑：2024年11月11日星期一，英国夏令时17:00–18:00

两场会议的录像现已提供：

‍

为AI安全前沿贡献力量

通过为我们的评估套件做出贡献，您将直接支持我们的关键工作。您的贡献将有助于塑造最先进AI系统的衡量与治理，为确保AI安全、负责任地发展带来切实影响。这是一个站在AI安全前沿的独特机会。我们期待审阅您的申请！

‍

本悬赏与AISI的系统性AI安全资助计划有何不同？

系统性AI安全是一个新兴领域，专注于从整体上理解并减轻AI部署在社会和各行业中的风险——模型评估只是减轻风险的一个组成部分。AISI的系统性AI安全快速资助计划是一个并行项目，旨在激励对这一新兴领域的研究，并为英国研究机构及适用的国际项目合作伙伴提供高达20万英镑的种子资金。该计划为期12个月，资助申请截止日期为11月26日。更多信息请访问aisi.gov.uk/grants。

‍

资源

以下资源提供了我们所选风险模型的信息，并展示了高质量的评估任务（尽管后者并非始终符合我们选定的风险模型）：

Phuong 等人，2024年，《评估前沿模型的危险能力》
Kinniment 等人，2024年/2023年，《评估语言模型agent在现实自主任务上的表现》
Benton 等人，2024年，《前沿模型的破坏性评估》
Apollo Research，《评估入门指南》
METR示例任务套件（公开）
Jimenez 等人，2024年，《SWE-Bench：语言模型能否解决真实世界的GitHub问题》
Chan 等人，2024年，《MLE-Bench：评估机器学习agent在机器学习工程上的表现》

以下资源提供了关于agent脚手架的有用指导：

Wang 等人，2023年，《基于大语言模型的自主agent综述》
Masterman 等人，2024年，《新兴AI agent架构在推理、规划和工具调用方面的全景：综述》
Jim Yang 等人，2024年，《SWE-agent：agent-计算机接口实现自动化软件工程》
Yao 等人，2023年，《ReAct：在语言模型中协同推理与行动》

‍

译自 UK AI Security Institute · 录于二〇二六年五月十六日