Workspace-Bench 1.0:在具有大规模文件依赖的 Workspace 任务上 benchmark AI agents
Workspace-Bench 1.0: Benchmarking AI Agents on Workspace Tasks with Large-Scale File Dependencies
Workspace learning 要求 AI agent 能够识别、推理、利用并更新工作者 workspace 中异构文件之间的显式与隐式依赖关系,从而有效完成常规任务和高级任务。尽管这一能力十分重要,现有相关 benchmark 大多只在预先指定或合成的文件上评估 agent,真实世界依赖关系有限,workspace 级评估仍然探索不足。
为此,我们提出 Workspace-Bench,这是一个用于评估 AI agent 在 Workspace Learning invOlving Large-Scale File Dependencies 上表现的 benchmark。我们构建了具有现实特征的 workspace,包含 5 种工作者画像、74 种文件类型、20,476 个文件(最高 20GB),并整理了 388 个任务;每个任务都有自己的文件依赖图,并基于总计 7,399 条 rubric 进行评估,要求 agent 进行跨文件检索、上下文推理和自适应决策。我们还提供 Workspace-Bench-Lite,这是一个包含 100 个任务的子集,在保留 benchmark 分布的同时,将评估成本降低约 70%。
我们评估了 4 种常用 agent harness 和 7 个 foundation model。实验结果表明,当前 agent 距离可靠的 workspace learning 仍有明显差距:最佳结果仅达到 68.7%,显著低于人类的 80.7%;各 agent 的平均表现仅为 47.4%。