Hugging Face · 官方博客

开放Agent排行榜

The Open Agent Leaderboard

二〇二六年五月十八日 · 英文原文

IBM Research 与 Hugging Face 联合发布 Open Agent Leaderboard(开放 Agent 排行榜),一个评估完整 AI agent 系统(而非仅内部模型)的开放 benchmark。该排行榜整合 SWE-Bench Verified、BrowseComp+、AppWorld 及 tau2-Bench 等六个 benchmark,覆盖编程、客服、研究等场景,并同时报告成功率与成本。配套发布 Exgentic 框架与论文(arXiv:2602.22953)。结果显示,相同模型搭配不同 agent 架构可产生显著性能与成本差异,通用 agent 已能匹配部分专用系统,且工具筛选组件普遍提升效果。

](https://huggingface.co/Elron)


通用 AI agent 有多好?我们构建了一个开放评估框架来找出答案。

大多数 AI 评估只报告一个简单结果:每个模型在某个 benchmark 任务上得了多少分。但当你部署一个 agent 时,你选择的不仅仅是模型。你选择的是一个完整的系统:agent 能使用哪些工具、它如何规划步骤、它在动作之间记住什么、当出现问题时它如何恢复。改变其中任何一项,同一个模型可能会以截然不同的成本产生截然不同的结果。

AI agent 的效果取决于它的构建方式,而不仅仅是内部的模型。

今天,我们推出 Open Agent Leaderboard(开放 Agent 排行榜),这是一个用于比较完整 agent 系统(而不仅仅是其内部模型)的开放 benchmark。它同时报告质量和成本,因此你不仅能知道什么方案有效,还能知道什么方案值得部署。

该排行榜与 Exgentic 框架(用于运行和复现评估)以及一篇描述完整方法和结果的论文配套使用。所有内容从第一天起就完全开放。

我们能衡量通用性吗?


当 AI agent 被精心定制用于特定任务时(例如在熟悉的代码仓库中编程,或使用已知的工具集处理客户服务),它们会变得非常有用。但更难的问题是,同一个 agent 能否处理许多不同的任务,每个任务都有各自的工具、规则和约束,而无需为每个任务进行手动定制。

一个更通用的 agent,是你可以直接放入新环境并让它正常工作的 agent。

这就是我们所说的通用性,它最好被理解为一个光谱,而不是一个二元标签。当然,只在理论上有效的通用性是没有用的。重要的是,随着任务和环境的范围扩大,agent 是否仍能保持能力,并且是否以合理的成本做到这一点。一个能处理所有事情但运行成本高昂的系统,在任何有意义的方面都不是通用的。

这个排行榜衡量的正是这一点:你的 agent 实际有多通用。

它在多样且陌生的环境中评估 agent,每个环境都有不同的工具、规则和约束,并同时报告质量和成本。因此,你不仅能知道系统表现如何,还能知道它是否值得实际部署。它并未涵盖通用 agent 最终所需的所有能力。但它对 agent 在不同情境下的工作效果进行了比以往任何评估都更强的测试。并且,通过将完整的 agent 系统(而非仅仅是模型)作为被衡量对象,它揭示了真正驱动结果的因素。

我们构建了什么


我们汇集了六个 benchmark,每个测试一种不同类型的现实任务。它们共同旨在涵盖广泛的工作场景:编程、客户服务、技术支持、个人助理和研究。

每个都是已建立的 benchmark,由研究社区创建和评审。选择它们并非因为任何一个能单独捕捉通用 agent 能力,而是因为它们共同测试了非常不同的方面:真实的代码修改、开放式的调研、广阔的动作空间、受规则约束的对话。这种组合使得评估具有意义。

这些 benchmark 各自被设计为以一种方式测试一种任务。让它们协同工作意味着需要赋予它们一个共享的结构。我们引入了一个统一协议,赋予每个 benchmark 相同的形态:一个任务(要做什么)、一个上下文(要知道什么)和一组动作(允许做什么)。

不再是每个 agent 说每种 benchmark 的语言,而是它们都说同一种语言。

这种标准化并非易事。每个 benchmark 都带有自己的假设、指令和交互模式。确保这些内容不与不同 agent 的内部工作方式冲突,需要深入理解双方。这是这项工作耗时较长的原因之一,也是结果可能与你在单个 benchmark 排行榜上看到的不同原因之一。但回报是实实在在的:benchmark 保留了原始设计,agent 保留了原生工具和接口,而协议为它们提供了一种通用的连接方式。

Image 2: image

如何阅读排行榜


每一行是一个完整的 agent 系统:一个特定的 agent 搭配一个特定的模型,在所有六个 benchmark 上进行评估。对于每种配置,你都能看到平均成功率、每个任务的平均成本,以及每个 benchmark 的细分结果。

以下是当前前五名的样子:Image 3: image

看看前三名。它们都使用相同的模型。然而,它们在得分和成本上都有差异,因为包裹在该模型外部的 agent 系统是不同的。

相同模型,不同 agent,不同结果 —— agent 很重要。

成本差距同样惊人。前五名中最高效的配置,其运行成本仅为最强配置的一小部分。当你将每种配置按质量和成本绘制成图时,全貌就清晰了:Image 4: image

当 agent 实现与模型一起可见时,你就可以开始梳理驱动结果的因素:哪些提升来自模型,哪些来自 agent 设计,哪些组件能跨环境通用。这正是这个排行榜旨在展示的内容。

关于结果的一个说明:这里的 agent 是作为通用系统进行测试的,没有针对特定 benchmark 进行调整,也没有应用模型开发者通常对单个 benchmark 进行的 prompt 和环境优化。因此,分数可能有所不同。详情请参阅论文。

我们已发现的规律


一个发现让我们感到惊讶:通用 agent 已经能与专用 agent 竞争了。在几个案例中,没有经过 benchmark 特定调整的 agent 匹配了直接为这些任务构建的系统。

Image 5: image

在大多数 benchmark 上,通用 agent 匹配甚至超越了最好的专用系统。单个 agent 越来越能够处理多种类型的工作,而不仅仅是它为之准备的那一个环境。

结果还揭示了一些仅凭成功率无法看到的东西:agent 在失败方式上差异巨大。有些失败得又快又便宜。另一些则在放弃之前消耗掉漫长且昂贵的运行。在我们的实验中,失败的运行比成功的运行成本高出 20-54%。对于任何在生产环境中运行 agent 的人来说,失败行为对账单的影响与成功行为一样大。

也许最重要的发现是关于驱动结果的因素。模型选择仍然是主导因素。但 agent 架构已经产生了明显的影响。工具筛选(帮助 agent 专注于相关工具,而不是搜索所有工具)在我们测试的每个模型上都提升了性能,并将原本会失败的配置变成了可行的配置。

今天,模型解释了大部分结果。但它周围的 agent 已经开始改变结果了。

完整的方法论和实证分析在我们的通用 agent 评估论文中有所描述。

今天公开的内容


这个排行榜背后的一切都是开放的。今天我们发布:

我们为社区构建了这一切。探索它,提交你自己的结果,并帮助我们使 agent 评估对每个人都更加开放和有用。

Image 6: image

我们希望社区做什么


通用 agent 太重要了,不能关起门来评估。

通用 agent 是模块化系统:规划、记忆、工具使用、上下文管理、错误恢复。上面的结果表明,这些组件在成本、可靠性和性能之间做出了真实的权衡。如果某个组件承担了主要工作,社区应该能够看到这一点。

我们构建 Exgentic 就是为了让这种开放评估变得可行:一个开放平台,用于编排跨环境的 benchmark 会话,并生成标准化的结果、轨迹和成本报告。但我们无法独自完成这一切。

Agent 开发者可以通过对变更进行版本控制、记录内部内容以及使组件可配置来开放他们的系统。Benchmark 创建者可以帮助扩展我们评估的环境范围。任何人都可以复现我们的结果、挑战它们,并发现我们遗漏的东西。

并非所有这些现在都很容易做到。大多数 benchmark 在设计时并未考虑通用 agent,需要仔细的适配。这是一个不断发展的项目,关于哪些方面需要变得更简单的反馈,与一个完整的贡献同样受欢迎。

下一步计划


自发布以来,我们增加了两个开放权重模型,DeepSeek V3.2 和 Kimi K2.5,使排行榜涵盖五个模型、五个 agent 和六个 benchmark。开放权重的结果讲述了一个清晰的故事:在特定组合上具有竞争力,但平均落后于前沿闭源模型 18-29 个百分点。更多信息请阅读我们的开放权重深度分析

排行榜的价值取决于为其提供数据的社区。我们正在寻求三个方向的贡献:新的 agent(将你的 agent 封装到 Exgentic 协议中并提交结果)、新的 benchmark(任何带有程序化评估器的任务套件都可以集成)以及新的模型(尤其是我们尚未涵盖的开放权重模型)。通过在结果数据集上提交 PR 来提交结果。

结语


通用 agent 值得进行能反映实际被衡量对象的评估:完整的系统,而不仅仅是模型。

Open Agent Leaderboard 是一个起点。我们相信它可以发展成更大的东西:一个社区评估、比较和改进开放 agent 系统的共享标准。

探索排行榜阅读论文尝试 Exgentic。如果这个方向引起了你的共鸣,请帮助我们构建它。

通用 agent 正在重塑工作的方式。让我们公开地研究和讨论它们。

相关阅读


译自 Hugging Face · 官方博客 · 录于 二〇二六年五月十八日