Hugging Face · Daily Papers

AcademiClaw：当学生为 AI agent 设定挑战

AcademiClaw: When Students Set Challenges for AI Agents

Junjie Yu, Pengrui Lu, Weiye Si, Hongliang Lu, Jiabao Wu, Kaiwen Tao, Kun Wang, Lingyu Yang 等 78 位

二〇二六年五月五日 · arXiv:2605.02661 · PDF · Code

摘要

OpenClaw 生态中的 benchmark 迄今只评估 assistant 级任务，使 OpenClaw 的学术级能力基本未得到考察。我们提出 AcademiClaw，这是一个双语 benchmark，包含 80 个复杂的 long-horizon 任务，直接来源于大学生真实的学术工作流——作业、研究项目、竞赛和个人项目——这些任务是他们认为当前 AI agent 无法有效解决的。最终任务集从学生提交的 230 个候选任务中经严格专家评审筛选而来，覆盖 25+ 个专业领域，从奥林匹克级数学和语言学问题，到需要大量 GPU 资源的 reinforcement learning 和 full-stack 系统 debugging，其中 16 个任务需要执行 CUDA GPU。

每个任务都在隔离的 Docker sandbox 中执行，并通过结合六种互补技术的多维 rubric 按任务完成情况评分；独立的五类 safety audit 则提供额外的行为分析。对六个 frontier model 的实验显示，即使表现最佳的模型也只有 55% 的通过率。进一步分析揭示了不同任务领域之间清晰的能力边界、模型之间相异的行为策略，以及 token 消耗与输出质量之间的脱节；这些结果提供了聚合指标之外的细粒度诊断信号。

我们希望 AcademiClaw 及其开源数据和代码能成为 OpenClaw 社区的有用资源，推动 agent 在真实世界学术需求的完整范围内变得更有能力、更通用。所有数据和代码可在 https://github.com/GAIR-NLP/AcademiClaw 获取。