ClawGym:用于构建有效 Claw agent 的可扩展框架
ClawGym: A Scalable Framework for Building Effective Claw Agents
Claw-style 环境支持围绕本地文件、工具和持久化工作区状态的多步骤 workflow。然而,围绕这类环境进行可扩展开发,仍受限于缺少系统化 framework,尤其是缺少用于合成可验证训练数据,并将其与 agent 训练和诊断式评估相结合的 framework。
为应对这一挑战,我们提出 ClawGym,一个支持 Claw-style 个人 agent 开发全生命周期的可扩展 framework。具体而言,我们构建了 ClawGym-SynData,这是一个包含 13.5K 个经过过滤的 task 的多样化 dataset;这些 task 由 persona-driven intents 和 skill-grounded operations 合成,并配有真实感的 mock workspaces 与混合 verification mechanisms。随后,我们通过在 black-box rollout trajectories 上进行 supervised fine-tuning,训练了一系列具备较强能力的 Claw-style 模型,称为 ClawGym-Agents;并进一步通过一个轻量级 pipeline 探索 reinforcement learning,该 pipeline 可在按 task 隔离的 sandboxes 中并行执行 rollouts。
为支持可靠评估,我们进一步构建了 ClawGym-Bench,这是一个包含 200 个实例的 benchmark,并通过自动过滤与 human-LLM review 进行校准。相关资源将很快发布于 https://github.com/ClawGym。