UK AI Security Institute

AI评估中的国际共识与开放问题

International consensus and open questions in AI evaluations

二〇二六年五月十四日 · 英文原文

摘要

国际先进人工智能测量、评估与科学网络（原国际AI安全研究所网络）于2025年在圣地亚哥与NeurIPS同期举行技术研讨会，汇集澳大利亚、加拿大、欧盟、法国、日本、肯尼亚、韩国、新加坡、英国和美国成员，聚焦AI评估科学。共识包括评估需明确目标、透明可重复、按类型定制参数、嵌入质量保证、单独报告、加强有效性及考虑多语言文化。开放问题涉及是否使用风险模型、优先级、信息共享边界、报告模板灵活性及如何测试AI系统。英国作为2026年协调员，将牵头制定最佳实践文档。

人工智能评估中的国际共识与开放问题 | AISI 工作

请启用本网站的 JavaScript。

人工智能评估中的国际共识与开放问题

国际先进人工智能测量、评估与科学网络回顾近期会议，并展望印度人工智能影响力峰会

—

2026年2月12日

‍

先进人工智能正在跨越国界、行业和语言进行开发与部署。为了建立信任并支持自信地采用，我们需要共享的方式来理解这些系统。

这就是为什么国际先进人工智能测量、评估与科学网络（原国际人工智能安全研究所网络）将其工作重心重新聚焦于加强支撑人工智能评估的科学基础。该网络成立于2024年11月，汇集了澳大利亚、加拿大、欧盟、法国、日本、肯尼亚、韩国、新加坡、英国和美国，共同构建用于测量和评估先进人工智能能力的国际公认方法。

2025年，网络成员在圣地亚哥与NeurIPS会议同期举行技术研讨会，并与研究人员和行业进行交流，重点在于建立评估最佳实践的共识、揭示开放问题，以及加速推进能够跟上前沿人工智能发展步伐的测量方法。

本博客总结了这些讨论及成员持续工作中的关键要点，并展望了网络成员将再次聚首的印度人工智能影响力峰会。

共识领域

评估科学是一个快速发展的领域。尽管并非详尽无遗，网络成员已强调以下共识领域。

评估需要明确的目标： 评估应有其目的。通常，这是为了收集证据以评估关于人工智能在现实世界中能力的声明。但在所有情况下，评估者在制定或执行评估之前，都需要明确他们评估的对象是什么。评估报告中应包含对此的引用。
透明度和可重复性为结果提供信心： 评估应透明，并且原则上可重复。评估者应在评估报告中传达其方法、选择和理由。这应允许他人复现所报告的结果和分析。报告模板是支持这一原则的有效方法。当评估结果被用于支持关于现实世界影响的声明时，应明确阐述理由和不确定性。
根据评估类型定制模型性能和评估参数： 评估应旨在现实地估计模型性能。根据目标的不同，这可能意味着测试最佳情况下的性能（elicitation）或预期实际使用下的性能。评估者可能需要使用诸如 prompt engineering 和调整超参数等方法，以反映所选方法。
质量保证应嵌入设计和结果阶段： 即使资源有限，评估者也应使用质量保证流程，例如转录分析，以确保其结果不存在重大问题。这能提高科学严谨性。
评估应单独报告： 评估者应在报告中分别描述每项评估，包括详细说明每项评估的内容以及进行了何种能力 elicitation。这有助于在沟通结果时提高透明度和清晰度，并支持在决策中适当使用评估结果。
使主要发现易于理解： 评估报告的关键要素应能让非专业受众理解。评估者正在报告一项重要技术的细节，应使其结论对政策制定者清晰可读。然而，这不应排除评估报告中的技术细节。
加强有效性： 评估者应采取措施确保评估结果稳健且可推广。例如，包含不确定性估计对于统计有效性至关重要。对于外部有效性，评估者应设计考虑外部背景的评估协议，包括开发在现实应用中会使用的实际 scaffolding，或反映现实使用情况的成本-性能权衡参数。
评估应考虑不同语言和文化： 评估应考虑不同语言和文化背景下的性能和可靠性，因为安全措施可能因系统的使用地点和方式而异。这可能需要进行多语言和多文化评估。

开放问题

网络成员与人工智能行业之间的讨论揭示了评估科学方面的开放问题。例如：

评估是否应使用“风险模型”？ 一些第三方评估者使用风险模型：一种关于被测量特征如何导致现实世界危害的理论。在最佳情况下，这些风险模型确保评估针对具体场景，而非测量抽象能力。然而，与会者指出，评估并不总是测量风险，例如在公共 benchmark 上测量模型性能。
评估者应优先考虑什么？ 评估者没有无限的财力、人力和时间。确定优先级至关重要。评估者应优先考虑哪些测量指标，包括在能力 elicitation 中？
哪些信息应共享，哪些不应共享？ 在公开方法和限制令人担忧的能力被复现之间可能存在张力。虽然这种张力在测量非令人担忧的能力（例如在公共 benchmark 中）时可能不太相关，但应共享什么仍然是一个开放问题。
报告模板应有多灵活？ 第三方评估者的报告模板可能有用。然而，考虑到可能需要进行的评估范围广泛，与会者未能就报告模板的灵活程度达成共识。
评估者应如何测试人工智能系统（而不仅仅是模型）？ 评估者应如何测量人工智能_系统_（而非人工智能模型）的特性仍然是一个开放问题，但存在共识认为人工智能系统应被评估。尽管在这一领域取得了进展，包括进行 agentic 评估，但评估科学尚未就更广泛地评估人工智能系统的最佳实践达成定论。

‍

网络在圣地亚哥的讨论突显了在核心评估原则上日益增长的共识，同时也揭示了需要进一步研究的重要开放问题。接下来，成员们将在印度人工智能影响力峰会上会面，比较经验教训，针对现实世界用例测试方法，并确定下一阶段人工智能测量与评估的优先事项。英国作为2026年的网络协调员，将牵头将这些共同学习转化为今年晚些时候更详细的最佳实践文档。

‍