开放Agent排行榜

The Open Agent Leaderboard

二〇二六年五月十八日 · 英文原文

摘要

IBM Research 与 Hugging Face 联合发布 Open Agent Leaderboard（开放 Agent 排行榜），一个评估完整 AI agent 系统（而非仅内部模型）的开放 benchmark。该排行榜整合 SWE-Bench Verified、BrowseComp+、AppWorld 及 tau2-Bench 等六个 benchmark，覆盖编程、客服、研究等场景，并同时报告成功率与成本。配套发布 Exgentic 框架与论文（arXiv:2602.22953）。结果显示，相同模型搭配不同 agent 架构可产生显著性能与成本差异，通用 agent 已能匹配部分专用系统，且工具筛选组件普遍提升效果。

](https://huggingface.co/Elron)

通用 AI agent 有多好？我们构建了一个开放评估框架来找出答案。

大多数 AI 评估只报告一个简单结果：每个模型在某个 benchmark 任务上得了多少分。但当你部署一个 agent 时，你选择的不仅仅是模型。你选择的是一个完整的系统：agent 能使用哪些工具、它如何规划步骤、它在动作之间记住什么、当出现问题时它如何恢复。改变其中任何一项，同一个模型可能会以截然不同的成本产生截然不同的结果。

AI agent 的效果取决于它的构建方式，而不仅仅是内部的模型。

今天，我们推出 Open Agent Leaderboard（开放 Agent 排行榜），这是一个用于比较完整 agent 系统（而不仅仅是其内部模型）的开放 benchmark。它同时报告质量和成本，因此你不仅能知道什么方案有效，还能知道什么方案值得部署。

该排行榜与 Exgentic 框架（用于运行和复现评估）以及一篇描述完整方法和结果的论文配套使用。所有内容从第一天起就完全开放。

我们能衡量通用性吗？

当 AI agent 被精心定制用于特定任务时（例如在熟悉的代码仓库中编程，或使用已知的工具集处理客户服务），它们会变得非常有用。但更难的问题是，同一个 agent 能否处理许多不同的任务，每个任务都有各自的工具、规则和约束，而无需为每个任务进行手动定制。

一个更通用的 agent，是你可以直接放入新环境并让它正常工作的 agent。

这就是我们所说的通用性，它最好被理解为一个光谱，而不是一个二元标签。当然，只在理论上有效的通用性是没有用的。重要的是，随着任务和环境的范围扩大，agent 是否仍能保持能力，并且是否以合理的成本做到这一点。一个能处理所有事情但运行成本高昂的系统，在任何有意义的方面都不是通用的。

这个排行榜衡量的正是这一点：你的 agent 实际有多通用。

它在多样且陌生的环境中评估 agent，每个环境都有不同的工具、规则和约束，并同时报告质量和成本。因此，你不仅能知道系统表现如何，还能知道它是否值得实际部署。它并未涵盖通用 agent 最终所需的所有能力。但它对 agent 在不同情境下的工作效果进行了比以往任何评估都更强的测试。并且，通过将完整的 agent 系统（而非仅仅是模型）作为被衡量对象，它揭示了真正驱动结果的因素。

我们构建了什么

我们汇集了六个 benchmark，每个测试一种不同类型的现实任务。它们共同旨在涵盖广泛的工作场景：编程、客户服务、技术支持、个人助理和研究。

SWE-Bench Verified -- 在实际代码仓库中修复真实 bug
BrowseComp+ -- 在网络上研究复杂问题
AppWorld -- 在数百个应用和操作中完成个人任务
tau2-Bench Airline & Retail -- 遵循公司政策的客户服务
tau2-Bench Telecom -- 遵循公司政策的技术支持

每个都是已建立的 benchmark，由研究社区创建和评审。选择它们并非因为任何一个能单独捕捉通用 agent 能力，而是因为它们共同测试了非常不同的方面：真实的代码修改、开放式的调研、广阔的动作空间、受规则约束的对话。这种组合使得评估具有意义。

这些 benchmark 各自被设计为以一种方式测试一种任务。让它们协同工作意味着需要赋予它们一个共享的结构。我们引入了一个统一协议，赋予每个 benchmark 相同的形态：一个任务（要做什么）、一个上下文（要知道什么）和一组动作（允许做什么）。

不再是每个 agent 说每种 benchmark 的语言，而是它们都说同一种语言。

这种标准化并非易事。每个 benchmark 都带有自己的假设、指令和交互模式。确保这些内容不与不同 agent 的内部工作方式冲突，需要深入理解双方。这是这项工作耗时较长的原因之一，也是结果可能与你在单个 benchmark 排行榜上看到的不同原因之一。但回报是实实在在的：benchmark 保留了原始设计，agent 保留了原生工具和接口，而协议为它们提供了一种通用的连接方式。

如何阅读排行榜

每一行是一个完整的 agent 系统：一个特定的 agent 搭配一个特定的模型，在所有六个 benchmark 上进行评估。对于每种配置，你都能看到平均成功率、每个任务的平均成本，以及每个 benchmark 的细分结果。

以下是当前前五名的样子：

看看前三名。它们都使用相同的模型。然而，它们在得分和成本上都有差异，因为包裹在该模型外部的 agent 系统是不同的。

相同模型，不同 agent，不同结果 —— agent 很重要。

成本差距同样惊人。前五名中最高效的配置，其运行成本仅为最强配置的一小部分。当你将每种配置按质量和成本绘制成图时，全貌就清晰了：

当 agent 实现与模型一起可见时，你就可以开始梳理驱动结果的因素：哪些提升来自模型，哪些来自 agent 设计，哪些组件能跨环境通用。这正是这个排行榜旨在展示的内容。

关于结果的一个说明：这里的 agent 是作为通用系统进行测试的，没有针对特定 benchmark 进行调整，也没有应用模型开发者通常对单个 benchmark 进行的 prompt 和环境优化。因此，分数可能有所不同。详情请参阅论文。

我们已发现的规律

一个发现让我们感到惊讶：通用 agent 已经能与专用 agent 竞争了。在几个案例中，没有经过 benchmark 特定调整的 agent 匹配了直接为这些任务构建的系统。

在大多数 benchmark 上，通用 agent 匹配甚至超越了最好的专用系统。单个 agent 越来越能够处理多种类型的工作，而不仅仅是它为之准备的那一个环境。

结果还揭示了一些仅凭成功率无法看到的东西：agent 在失败方式上差异巨大。有些失败得又快又便宜。另一些则在放弃之前消耗掉漫长且昂贵的运行。在我们的实验中，失败的运行比成功的运行成本高出 20-54%。对于任何在生产环境中运行 agent 的人来说，失败行为对账单的影响与成功行为一样大。

也许最重要的发现是关于驱动结果的因素。模型选择仍然是主导因素。但 agent 架构已经产生了明显的影响。工具筛选（帮助 agent 专注于相关工具，而不是搜索所有工具）在我们测试的每个模型上都提升了性能，并将原本会失败的配置变成了可行的配置。

今天，模型解释了大部分结果。但它周围的 agent 已经开始改变结果了。

完整的方法论和实证分析在我们的通用 agent 评估论文中有所描述。

今天公开的内容

这个排行榜背后的一切都是开放的。今天我们发布：

Open Agent Leaderboard -- 直接探索结果
Exgentic -- 自行运行和复现评估
论文 -- 完整方法论和实证分析

我们为社区构建了这一切。探索它，提交你自己的结果，并帮助我们使 agent 评估对每个人都更加开放和有用。

我们希望社区做什么

通用 agent 太重要了，不能关起门来评估。

通用 agent 是模块化系统：规划、记忆、工具使用、上下文管理、错误恢复。上面的结果表明，这些组件在成本、可靠性和性能之间做出了真实的权衡。如果某个组件承担了主要工作，社区应该能够看到这一点。

我们构建 Exgentic 就是为了让这种开放评估变得可行：一个开放平台，用于编排跨环境的 benchmark 会话，并生成标准化的结果、轨迹和成本报告。但我们无法独自完成这一切。

Agent 开发者可以通过对变更进行版本控制、记录内部内容以及使组件可配置来开放他们的系统。Benchmark 创建者可以帮助扩展我们评估的环境范围。任何人都可以复现我们的结果、挑战它们，并发现我们遗漏的东西。

并非所有这些现在都很容易做到。大多数 benchmark 在设计时并未考虑通用 agent，需要仔细的适配。这是一个不断发展的项目，关于哪些方面需要变得更简单的反馈，与一个完整的贡献同样受欢迎。

下一步计划

自发布以来，我们增加了两个开放权重模型，DeepSeek V3.2 和 Kimi K2.5，使排行榜涵盖五个模型、五个 agent 和六个 benchmark。开放权重的结果讲述了一个清晰的故事：在特定组合上具有竞争力，但平均落后于前沿闭源模型 18-29 个百分点。更多信息请阅读我们的开放权重深度分析。

排行榜的价值取决于为其提供数据的社区。我们正在寻求三个方向的贡献：新的 agent（将你的 agent 封装到 Exgentic 协议中并提交结果）、新的 benchmark（任何带有程序化评估器的任务套件都可以集成）以及新的模型（尤其是我们尚未涵盖的开放权重模型）。通过在结果数据集上提交 PR 来提交结果。

结语

通用 agent 值得进行能反映实际被衡量对象的评估：完整的系统，而不仅仅是模型。

Open Agent Leaderboard 是一个起点。我们相信它可以发展成更大的东西：一个社区评估、比较和改进开放 agent 系统的共享标准。

探索排行榜。阅读论文。尝试 Exgentic。如果这个方向引起了你的共鸣，请帮助我们构建它。

通用 agent 正在重塑工作的方式。让我们公开地研究和讨论它们。