Hugging Face · 官方博客

ITBench-AA:前沿模型在企业IT代理任务首项基准测试中得分低于50%——来自Artificial Analysis与IBM

ITBench-AA: Frontier Models Score Below 50% on the First Benchmark for Agentic Enterprise IT Tasks — by Artificial Analysis and IBM

二〇二六年五月二十七日 · 英文原文

Artificial Analysis与IBM合作推出ITBench-AA,首个评估模型在企业IT任务中agentic能力的基准,从站点可靠性工程(SRE)任务开始。59个SRE任务要求模型通过shell命令调查Kubernetes事件快照,识别根因实体。Claude Opus 4.7以47%领先,GPT-5.5(xhigh)46%,Qwen3.7 Max 42%,所有前沿模型得分低于50%。Gemma 4 31B(推理)以每任务$0.14获37%,GLM-5.1(推理)40%。

](https://huggingface.co/ayhansebin)

Image 2: Saurabh Jha 的头像

Image 3: Rohan Arora 的头像

Artificial Analysis 与 IBM 软件创新实验室联合推出 ITBench-AA,这是评估模型在企业级 IT 任务中 agentic 能力的新系列基准的首个成果。该系列从站点可靠性工程(SRE)任务开始,前沿模型在此类任务上的得分均低于 50%。ITBench-AA 的 SRE 任务对模型在 Kubernetes 事件响应中的性能进行基准测试,模型和 agent 必须通过读取日志、追踪依赖关系以及识别复杂基础设施中的根因实体来诊断实时系统。底层 ITBench 数据集由 IBM 开发,利用了其在企业 IT 运营方面的深厚专业知识。Artificial Analysis 在过去 6 个月中与 IBM 紧密合作,为前沿 AI 评估开发了该数据集的实现方案,从站点可靠性工程(SRE)开始,并将逐步扩展到财务运营(FinOps)和首席信息安全官(CISO)任务。

Image 4: image

主要发现:

  1. Claude Opus 4.7(自适应推理,最大努力)以 47% 领先,其次是 GPT-5.5(xhigh)的 46% 和 Qwen3.7 Max 的 42%。
  2. 所有前沿模型的得分均低于 50%,这使得 ITBench-AA SRE 成为我们套件中饱和度最低的 agentic 基准之一。作为参考,前沿模型在 Terminal-Bench 上的得分要高得多。
  3. 交互轮次变化近 3 倍,但更长的轨迹并未转化为更高的准确率。GPT-5.5(xhigh)平均每任务 31 轮,得分 46%,而 Gemini 3.1 Pro Preview 平均 83 轮,得分 30%。过度调查的模型往往会将上游故障注入机制或并发症状误报为假阳性。
  4. GLM-5.1(推理)以 40% 领先开放权重模型,与 Gemini 3.5 Flash(高)基本持平。DeepSeek V4 Pro(推理,最大努力)以 38% 紧随其后,Gemma 4 31B(推理)为 37%,领先于 Gemini 3.1 Pro Preview 的 30%。

ITBench-AA SRE 概览:

亮点

  1. 任务要求 agent 通过 shell 命令调查 Kubernetes 事件快照,并提交结构化的 JSON 诊断结果,以识别负责的根因实体。在一个公开的 SRE 任务中,agent 看到前端路径中的用户可见故障。它使用 shell 命令检查离线快照:查看告警以确定事件窗口,然后通过追踪/日志将故障范围缩小到前端流量。拓扑图确定了受影响的服务,Kubernetes manifests 揭示了一个阻止前端的网络策略。成功的诊断识别出了负责的根因实体:otel-demo/NetworkPolicy/frontend-block-all-ports。

Image 5: image

  1. 更多的轮次并不意味着更好的答案。提交超出真实根因的额外贡献实体的模型会受到惩罚:在召回率门控精度下,识别出正确的根因但添加了上游机制(例如,chaos-mesh 控制器)或并发症状会被计为假阳性。这就是为什么一些具有长轨迹的模型表现不如简洁模型的原因:Gemini 3.1 Pro Preview 平均 83 轮,得分 30%,而 Gemma 4 31B(推理)平均 58 轮,得分 37%。

Image 6: image

Image 7: image

  1. 开放权重模型位于 ITBench-AA SRE 的成本前沿。Gemma 4 31B(推理)以每任务 $0.14 的成本获得 37% 的分数,在分数和成本上都优于 Gemini 3.1 Pro Preview(每任务 $2.23,30%)。GLM-5.1(推理)以每任务 $1.23 的成本获得 40% 的分数,在分数上与 Gemini 3.5 Flash(高)($1.70)持平,但成本更低。Claude Opus 4.7(自适应推理,最大努力)以 47% 领先排行榜,但也是成本最高的,每任务 $5.38。

Image 8: image

ITBench-AA 是与 @IBM 合作,基于其 ITBench 基准构建的。

译自 Hugging Face · 官方博客 · 录于 二〇二六年五月二十七日