ITBench-AA：前沿模型在企业IT代理任务首项基准测试中得分低于50%——来自Artificial Analysis与IBM

ITBench-AA: Frontier Models Score Below 50% on the First Benchmark for Agentic Enterprise IT Tasks — by Artificial Analysis and IBM

二〇二六年五月二十七日 · 英文原文

摘要

Artificial Analysis与IBM合作推出ITBench-AA，首个评估模型在企业IT任务中agentic能力的基准，从站点可靠性工程（SRE）任务开始。59个SRE任务要求模型通过shell命令调查Kubernetes事件快照，识别根因实体。Claude Opus 4.7以47%领先，GPT-5.5（xhigh）46%，Qwen3.7 Max 42%，所有前沿模型得分低于50%。Gemma 4 31B（推理）以每任务$0.14获37%，GLM-5.1（推理）40%。

](https://huggingface.co/ayhansebin)

Artificial Analysis 与 IBM 软件创新实验室联合推出 ITBench-AA，这是评估模型在企业级 IT 任务中 agentic 能力的新系列基准的首个成果。该系列从站点可靠性工程（SRE）任务开始，前沿模型在此类任务上的得分均低于 50%。ITBench-AA 的 SRE 任务对模型在 Kubernetes 事件响应中的性能进行基准测试，模型和 agent 必须通过读取日志、追踪依赖关系以及识别复杂基础设施中的根因实体来诊断实时系统。底层 ITBench 数据集由 IBM 开发，利用了其在企业 IT 运营方面的深厚专业知识。Artificial Analysis 在过去 6 个月中与 IBM 紧密合作，为前沿 AI 评估开发了该数据集的实现方案，从站点可靠性工程（SRE）开始，并将逐步扩展到财务运营（FinOps）和首席信息安全官（CISO）任务。

主要发现：

Claude Opus 4.7（自适应推理，最大努力）以 47% 领先，其次是 GPT-5.5（xhigh）的 46% 和 Qwen3.7 Max 的 42%。
所有前沿模型的得分均低于 50%，这使得 ITBench-AA SRE 成为我们套件中饱和度最低的 agentic 基准之一。作为参考，前沿模型在 Terminal-Bench 上的得分要高得多。
交互轮次变化近 3 倍，但更长的轨迹并未转化为更高的准确率。GPT-5.5（xhigh）平均每任务 31 轮，得分 46%，而 Gemini 3.1 Pro Preview 平均 83 轮，得分 30%。过度调查的模型往往会将上游故障注入机制或并发症状误报为假阳性。
GLM-5.1（推理）以 40% 领先开放权重模型，与 Gemini 3.5 Flash（高）基本持平。DeepSeek V4 Pro（推理，最大努力）以 38% 紧随其后，Gemma 4 31B（推理）为 37%，领先于 Gemini 3.1 Pro Preview 的 30%。

ITBench-AA SRE 概览：

总共 59 个 SRE 任务：40 个公开任务和 19 个全新的、保留任务
每个任务提供一个 Kubernetes 事件快照，包含告警、事件、追踪、指标、日志和应用拓扑。模型必须识别出导致该事件的最小独立根因 Kubernetes 实体集合。
故障涵盖典型的 SRE 故障模式，包括基础设施、服务、应用和混沌注入事件，例如资源配额耗尽、发布失败、连接池耗尽和网络分区。方法细节：
Agentic 框架：每个任务由模型在我们的开源 Stirrup 参考框架中运行解决，该框架提供对包含相关日志和快照的沙盒文件系统的 shell 访问权限。每个任务上限 100 轮，每个任务重复 3 次。
模型和 agent 提交他们认为导致事件的根因实体列表（Kubernetes Deployments、Services、Pods 等）。每次提交都会与 IBM 提供的真实根因集合进行比较。
评分使用全召回率下的平均精度：如果模型遗漏了任何真实根因，则该次重复得分为 0.0。如果识别出所有根因，则其得分等于其精度——即提交的实体中实际为根因的比例，即真正例 / (真正例 + 假正例)。标题分数是 59 个任务 × 3 次重复的平均值。
框架（Stirrup）在所有评估模型中保持不变，从而允许模型之间进行公平比较。

亮点

任务要求 agent 通过 shell 命令调查 Kubernetes 事件快照，并提交结构化的 JSON 诊断结果，以识别负责的根因实体。在一个公开的 SRE 任务中，agent 看到前端路径中的用户可见故障。它使用 shell 命令检查离线快照：查看告警以确定事件窗口，然后通过追踪/日志将故障范围缩小到前端流量。拓扑图确定了受影响的服务，Kubernetes manifests 揭示了一个阻止前端的网络策略。成功的诊断识别出了负责的根因实体：otel-demo/NetworkPolicy/frontend-block-all-ports。

更多的轮次并不意味着更好的答案。提交超出真实根因的额外贡献实体的模型会受到惩罚：在召回率门控精度下，识别出正确的根因但添加了上游机制（例如，chaos-mesh 控制器）或并发症状会被计为假阳性。这就是为什么一些具有长轨迹的模型表现不如简洁模型的原因：Gemini 3.1 Pro Preview 平均 83 轮，得分 30%，而 Gemma 4 31B（推理）平均 58 轮，得分 37%。

开放权重模型位于 ITBench-AA SRE 的成本前沿。Gemma 4 31B（推理）以每任务 $0.14 的成本获得 37% 的分数，在分数和成本上都优于 Gemini 3.1 Pro Preview（每任务 $2.23，30%）。GLM-5.1（推理）以每任务 $1.23 的成本获得 40% 的分数，在分数上与 Gemini 3.5 Flash（高）（$1.70）持平，但成本更低。Claude Opus 4.7（自适应推理，最大努力）以 47% 领先排行榜，但也是成本最高的，每任务 $5.38。

ITBench-AA 是与 @IBM 合作，基于其 ITBench 基准构建的。

更多信息请参见：ITBench 论文（arXiv）：https://arxiv.org/abs/2502.05352
GitHub：https://github.com/itbench-hub/ITBench
ITBench-AA 排行榜：https://artificialanalysis.ai/evaluations/itbench-aa
ITBench-AA HuggingFace 仓库：https://huggingface.co/datasets/ArtificialAnalysis/ITBench-AA/tree/main/sre

译自 Hugging Face · 官方博客 · 录于二〇二六年五月二十七日