发布 Inspect Evals
Announcing Inspect Evals
英国AI安全研究所(原名称于2025年2月14日更名)联合Arcadia Impact与Vector Institute推出Inspect Evals,一个基于Inspect AI框架的开源LLM benchmark评估库,提供数十个涵盖编程、数学、网络安全、安全防护、推理和通用知识的评估,包括GAIA、SWE-Bench、GDM CTF和Cybench等agent benchmark,支持单命令运行。该项目旨在解决评估社区面临的实现挑战与测量标准缺失问题,已合并来自十多位用户的贡献。
致读者:我们已于2025年2月14日更名为AI安全研究所。了解更多信息请点击此处。
今天,我们很高兴地宣布推出 Inspect Evals,这是一个社区贡献的 LLM benchmark 评估库。过去几个月里,我们与 Arcadia Impact 和 Vector Institute 紧密合作,共同完成了这个新项目,它提供了数十个高质量的开源评估,用于安全研究。评估涵盖多个领域,包括编程、数学、网络安全、安全防护、推理和通用知识。我们还收录了前沿模型提供商常报告的大部分 benchmark。
评估已成为追踪前沿模型能力越来越重要的方式。全球的"评估社区"包括模型开发者、学术界、AI 安全研究所以及众多其他研究机构。运行评估的组织常常面临各种实现挑战,包括缺乏共享的测量标准。通过这个项目,我们正在为解决这些挑战迈出初步步伐。

Tweet This Image
Download Image
在 VS Code 中运行和查看 Inspect 评估
Inspect 平台
Inspect Evals 构建于 Inspect AI 之上,这是由英国 AISI 创建的开源评估框架。Inspect AI 最初于今年 5 月开源,此后得到了广泛使用,并收到了来自更广泛评估社区的贡献。超过 50 位贡献者为该框架添加了内容,包括其他 AI 安全研究所、前沿实验室和主要安全研究机构。
Inspect Evals 设计为易于运行和实验。它们可以作为 Python 包安装,并通过命令行或 Python API 运行。该集合包括多个 agent benchmark,例如 GAIA、SWE-Bench、GDM CTF 和 Cybench。以往,agent benchmark 的设置和运行既耗时又复杂,而借助 Inspect Evals,这些 benchmark 现在只需一条命令即可针对任何模型运行。
社区贡献
评估社区对全面评估前沿模型的能力和安全特性有着共同的浓厚兴趣。传统上,benchmark 的实现分散在许多独立组织中,导致重复工作、缺乏同行评审,以及评估运行数量低于我们所有人的期望。Inspect Evals 旨在为更广泛的评估社区提供一个协作平台,共同开发高质量、人人受益的评估。
我们正在寻求新的评估贡献,并且已经合并了来自十多位用户的评估。请访问项目网站了解更多信息,并查看我们的贡献指南开始行动!