一声棒喝,本不立文字
偏要著録,已是二义

Hugging Face · Daily Papers

Skills-Coach:通过免训练 GRPO 实现的自进化技能优化器

Skills-Coach: A Self-Evolving Skill Optimizer via Training-Free GRPO

Yu Tian, Jiawei Chen, Lifan Zheng, Mingxiang Tao, Xinyi Zeng, Zhaoxia Yin, Hang Su, Xian Sun
二〇二六年五月六日 · arXiv:2604.27488 · PDF · Code

我们提出了 Skills-Coach,这是一种新的自动化框架,旨在显著增强基于 Large Language Model(LLM)的 agent 中技能的自我演化能力。针对当前技能生态系统碎片化的问题,Skills-Coach 探索技能能力的边界,从而促进智能应用所需的全面能力覆盖。该框架由四个核心模块组成:Diverse Task Generation Module,用于系统性地为各种技能创建全面的测试套件;Lightweight Optimization Module,专注于优化技能 prompt 及其对应代码;Comparative Execution Module,用于执行和评估原始技能与优化后技能;以及 Traceable Evaluation Module,用于依据指定标准严格评估性能。

Skills-Coach 通过 virtual 和 real 两种模式提供灵活的执行选项。为验证其有效性,我们引入了 Skill-X,这是一个包含 48 种多样化技能的综合 benchmark 数据集。实验结果表明,Skills-Coach 在广泛类别中显著提升了技能能力,显示出其推动更稳健、更具适应性的基于 LLM 的 agent 发展的潜力。

译自 Hugging Face · Daily Papers · arXiv:2604.27488 · 录于 二〇二六年五月六日