一声棒喝,本不立文字
偏要著録,已是二义

Hugging Face · Daily Papers

ClawGym:用于构建有效 Claw agent 的可扩展框架

ClawGym: A Scalable Framework for Building Effective Claw Agents

Fei Bai, Huatong Song, Shuang Sun, Daixuan Cheng, Yike Yang, Chuan Hao, Renyuan Li, Feng Chang 等 13 位
二〇二六年四月三十日 · arXiv:2604.26904 · PDF

Claw-style 环境支持围绕本地文件、工具和持久化工作区状态的多步骤 workflow。然而,围绕这类环境进行可扩展开发,仍受限于缺少系统化 framework,尤其是缺少用于合成可验证训练数据,并将其与 agent 训练和诊断式评估相结合的 framework。

为应对这一挑战,我们提出 ClawGym,一个支持 Claw-style 个人 agent 开发全生命周期的可扩展 framework。具体而言,我们构建了 ClawGym-SynData,这是一个包含 13.5K 个经过过滤的 task 的多样化 dataset;这些 task 由 persona-driven intents 和 skill-grounded operations 合成,并配有真实感的 mock workspaces 与混合 verification mechanisms。随后,我们通过在 black-box rollout trajectories 上进行 supervised fine-tuning,训练了一系列具备较强能力的 Claw-style 模型,称为 ClawGym-Agents;并进一步通过一个轻量级 pipeline 探索 reinforcement learning,该 pipeline 可在按 task 隔离的 sandboxes 中并行执行 rollouts。

为支持可靠评估,我们进一步构建了 ClawGym-Bench,这是一个包含 200 个实例的 benchmark,并通过自动过滤与 human-LLM review 进行校准。相关资源将很快发布于 https://github.com/ClawGym。

译自 Hugging Face · Daily Papers · arXiv:2604.26904 · 录于 二〇二六年四月三十日