一声棒喝,本不立文字
偏要著録,已是二义

Hugging Face · Daily Papers

Claw-Eval-Live:面向演进中真实世界工作流的实时 Agent Benchmark

Claw-Eval-Live: A Live Agent Benchmark for Evolving Real-World Workflows

Chenxin Li, Zhengyang Tang, Huangxin Lin, Yunlong Lin, Shijue Huang, Shengyuan Liu, Bowen Ye, Rang Li 等 11 位
二〇二六年五月一日 · arXiv:2604.28139 · PDF · Code

LLM agent 预期能够跨软件工具、业务服务和本地 workspace 完成端到端的工作单元。然而,许多 agent benchmark 在发布时固定一组经过筛选的任务,且主要根据最终响应评分,这使得它们难以针对不断变化的 workflow 需求评估 agent,也难以验证任务是否被实际执行。我们提出 Claw-Eval-Live,这是一个面向 workflow agent 的 live benchmark,它将可刷新的信号层与可复现、带时间戳的发布快照分离;前者在各版本之间根据公开 workflow 需求信号更新。每个版本都基于公开 workflow 需求信号构建;当前版本使用 ClawHub Top-500 skills,并将其具象化为受控任务,配有固定的 fixtures、services、workspaces 和 graders。

在评分方面,Claw-Eval-Live 记录执行 traces、audit logs、service state,以及运行后的 workspace artifacts;当证据充分时使用确定性检查,仅在语义维度上使用结构化 LLM judge。该版本包含 105 个任务,覆盖受控 business services 和本地 workspace repair,并在统一的公开通过规则下评估了 13 个 frontier models。实验表明,可靠的 workflow automation 仍远未解决:表现最好的模型仅通过 66.7% 的任务,没有模型达到 70%。失败情况按任务族和执行界面呈现出结构性差异,其中 HR、management 和 multi-system business workflows 是持续瓶颈;相比之下,本地 workspace repair 更容易,但也尚未饱和。仅看 leaderboard 排名并不足够,因为通过率相近的模型在 overall completion 上可能明显分化,而任务级区分度集中在中间难度的一组任务。Claw-Eval-Live 表明,workflow-agent evaluation 应当有双重 grounding:既基于新鲜的外部需求,也基于可验证的 agent action。

译自 Hugging Face · Daily Papers · arXiv:2604.28139 · 录于 二〇二六年五月一日