Hugging Face · Daily Papers

Skills-Coach：通过免训练 GRPO 实现的自进化技能优化器

Skills-Coach: A Self-Evolving Skill Optimizer via Training-Free GRPO

Yu Tian, Jiawei Chen, Lifan Zheng, Mingxiang Tao, Xinyi Zeng, Zhaoxia Yin, Hang Su, Xian Sun

二〇二六年五月六日 · arXiv:2604.27488 · PDF · Code

摘要

我们提出了 Skills-Coach，这是一种新的自动化框架，旨在显著增强基于 Large Language Model（LLM）的 agent 中技能的自我演化能力。针对当前技能生态系统碎片化的问题，Skills-Coach 探索技能能力的边界，从而促进智能应用所需的全面能力覆盖。该框架由四个核心模块组成：Diverse Task Generation Module，用于系统性地为各种技能创建全面的测试套件；Lightweight Optimization Module，专注于优化技能 prompt 及其对应代码；Comparative Execution Module，用于执行和评估原始技能与优化后技能；以及 Traceable Evaluation Module，用于依据指定标准严格评估性能。

Skills-Coach 通过 virtual 和 real 两种模式提供灵活的执行选项。为验证其有效性，我们引入了 Skill-X，这是一个包含 48 种多样化技能的综合 benchmark 数据集。实验结果表明，Skills-Coach 在广泛类别中显著提升了技能能力，显示出其推动更稳健、更具适应性的基于 LLM 的 agent 发展的潜力。