Hugging Face · Daily Papers

Workspace-Bench 1.0：在具有大规模文件依赖的 Workspace 任务上 benchmark AI agents

Workspace-Bench 1.0: Benchmarking AI Agents on Workspace Tasks with Large-Scale File Dependencies

Zirui Tang, Xuanhe Zhou, Yumou Liu, Linchun Li, Weizheng Wang, Hongzhang Huang, Jun Zhou, Jiachen Song 等 20 位

二〇二六年五月六日 · arXiv:2605.03596 · PDF

摘要

Workspace learning 要求 AI agent 能够识别、推理、利用并更新工作者 workspace 中异构文件之间的显式与隐式依赖关系，从而有效完成常规任务和高级任务。尽管这一能力十分重要，现有相关 benchmark 大多只在预先指定或合成的文件上评估 agent，真实世界依赖关系有限，workspace 级评估仍然探索不足。

为此，我们提出 Workspace-Bench，这是一个用于评估 AI agent 在 Workspace Learning invOlving Large-Scale File Dependencies 上表现的 benchmark。我们构建了具有现实特征的 workspace，包含 5 种工作者画像、74 种文件类型、20,476 个文件（最高 20GB），并整理了 388 个任务；每个任务都有自己的文件依赖图，并基于总计 7,399 条 rubric 进行评估，要求 agent 进行跨文件检索、上下文推理和自适应决策。我们还提供 Workspace-Bench-Lite，这是一个包含 100 个任务的子集，在保留 benchmark 分布的同时，将评估成本降低约 70%。

我们评估了 4 种常用 agent harness 和 7 个 foundation model。实验结果表明，当前 agent 距离可靠的 workspace learning 仍有明显差距：最佳结果仅达到 68.7%，显著低于人类的 80.7%；各 agent 的平均表现仅为 47.4%。