一声棒喝,本不立文字
偏要著録,已是二义

UK AI Security Institute

AI评估中的国际共识与开放问题

International consensus and open questions in AI evaluations

二〇二六年五月十四日 · 英文原文

国际先进人工智能测量、评估与科学网络(原国际AI安全研究所网络)于2025年在圣地亚哥与NeurIPS同期举行技术研讨会,汇集澳大利亚、加拿大、欧盟、法国、日本、肯尼亚、韩国、新加坡、英国和美国成员,聚焦AI评估科学。共识包括评估需明确目标、透明可重复、按类型定制参数、嵌入质量保证、单独报告、加强有效性及考虑多语言文化。开放问题涉及是否使用风险模型、优先级、信息共享边界、报告模板灵活性及如何测试AI系统。英国作为2026年协调员,将牵头制定最佳实践文档。

人工智能评估中的国际共识与开放问题 | AISI 工作

请启用本网站的 JavaScript。

A

A

Image 1Image 2关于我们研究资助博客联系

职业机会

Image 3Image 4首页关于我们研究资助博客

职业机会

博客组织

人工智能评估中的国际共识与开放问题

国际先进人工智能测量、评估与科学网络回顾近期会议,并展望印度人工智能影响力峰会

2026年2月12日

先进人工智能正在跨越国界、行业和语言进行开发与部署。为了建立信任并支持自信地采用,我们需要共享的方式来理解这些系统。

这就是为什么国际先进人工智能测量、评估与科学网络(原国际人工智能安全研究所网络)将其工作重心重新聚焦于加强支撑人工智能评估的科学基础。该网络成立于2024年11月,汇集了澳大利亚、加拿大、欧盟、法国、日本、肯尼亚、韩国、新加坡、英国和美国,共同构建用于测量和评估先进人工智能能力的国际公认方法。

2025年,网络成员在圣地亚哥与NeurIPS会议同期举行技术研讨会,并与研究人员和行业进行交流,重点在于建立评估最佳实践的共识、揭示开放问题,以及加速推进能够跟上前沿人工智能发展步伐的测量方法。

本博客总结了这些讨论及成员持续工作中的关键要点,并展望了网络成员将再次聚首的印度人工智能影响力峰会

共识领域

评估科学是一个快速发展的领域。尽管并非详尽无遗,网络成员已强调以下共识领域。

开放问题

网络成员与人工智能行业之间的讨论揭示了评估科学方面的开放问题。例如:

网络在圣地亚哥的讨论突显了在核心评估原则上日益增长的共识,同时也揭示了需要进一步研究的重要开放问题。接下来,成员们将在印度人工智能影响力峰会上会面,比较经验教训,针对现实世界用例测试方法,并确定下一阶段人工智能测量与评估的优先事项。英国作为2026年的网络协调员,将牵头将这些共同学习转化为今年晚些时候更详细的最佳实践文档。

Image 5

Image 6Image 7

人工智能安全研究所是科学、创新与技术部下属的研究机构。

AISI

首页关于我们资助职业机会

我们的工作

博客研究研究议程

联系

科学、创新与技术部Image 8 LinkedInImage 9: Twitter 图标 Twitter

网站政策

隐私政策

www.aisi.gov.uk 使用必要的 cookie 以实现网站功能和匿名使用分析。

我理解

Image 10

Image 11: 关闭图标

感谢分享 AISI 的工作!

我们已将此图片复制到您的剪贴板。

您可以在下一页将其粘贴到您的推文中

(使用 'ctrl +v' 或 'cmd + v' 粘贴)

继续发布推文 Image 12: Twitter 图标

Image 13

译自 UK AI Security Institute · 录于 二〇二六年五月十四日