Hugging Face · Daily Papers

Claw-Eval-Live：面向演进中真实世界工作流的实时 Agent Benchmark

Claw-Eval-Live: A Live Agent Benchmark for Evolving Real-World Workflows

Chenxin Li, Zhengyang Tang, Huangxin Lin, Yunlong Lin, Shijue Huang, Shengyuan Liu, Bowen Ye, Rang Li 等 11 位

二〇二六年五月一日 · arXiv:2604.28139 · PDF · Code

摘要

LLM agent 预期能够跨软件工具、业务服务和本地 workspace 完成端到端的工作单元。然而，许多 agent benchmark 在发布时固定一组经过筛选的任务，且主要根据最终响应评分，这使得它们难以针对不断变化的 workflow 需求评估 agent，也难以验证任务是否被实际执行。我们提出 Claw-Eval-Live，这是一个面向 workflow agent 的 live benchmark，它将可刷新的信号层与可复现、带时间戳的发布快照分离；前者在各版本之间根据公开 workflow 需求信号更新。每个版本都基于公开 workflow 需求信号构建；当前版本使用 ClawHub Top-500 skills，并将其具象化为受控任务，配有固定的 fixtures、services、workspaces 和 graders。

在评分方面，Claw-Eval-Live 记录执行 traces、audit logs、service state，以及运行后的 workspace artifacts；当证据充分时使用确定性检查，仅在语义维度上使用结构化 LLM judge。该版本包含 105 个任务，覆盖受控 business services 和本地 workspace repair，并在统一的公开通过规则下评估了 13 个 frontier models。实验表明，可靠的 workflow automation 仍远未解决：表现最好的模型仅通过 66.7% 的任务，没有模型达到 70%。失败情况按任务族和执行界面呈现出结构性差异，其中 HR、management 和 multi-system business workflows 是持续瓶颈；相比之下，本地 workspace repair 更容易，但也尚未饱和。仅看 leaderboard 排名并不足够，因为通过率相近的模型在 overall completion 上可能明显分化，而任务级区分度集中在中间难度的一组任务。Claw-Eval-Live 表明，workflow-agent evaluation 应当有双重 grounding：既基于新鲜的外部需求，也基于可验证的 agent action。