SkillOpt：自我进化Agent技能的执行策略

SkillOpt: Executive Strategy for Self-Evolving Agent Skills

Yifan Yang, Ziyang Gong, Weiquan Huang, Qihao Yang, Ziwei Zhou, Zisu Huang, Yan Li, Xuemei Gao 等 15 位

来自 Microsoft Research

二〇二六年五月二十五日 · arXiv:2605.23904 · PDF · Code

摘要

当前的智能体技能要么是手工构建的，要么是单次生成的，要么通过松散控制的自我修订来演化——这些方式都不像深度学习优化器那样作用于技能本身，也无法在反馈下可靠地超越其初始表现。我们认为，技能应当被训练为冻结智能体的外部状态，并遵循与权重空间优化相同的纪律以确保可复现性。据我们所知，SkillOpt 是首个面向智能体技能的系统性可控文本空间优化器：一个独立的优化器模型将带分数的轨迹转化为对单个技能文档的有界增/删/改编辑，且仅当编辑能严格提升保留验证分数时才被接受。文本学习率预算、拒绝编辑缓冲区以及逐轮慢/元更新机制使技能训练保持稳定，同时在部署时无需增加任何推理时的模型调用。在六个基准测试、七个目标模型和三种执行框架（直接对话、Codex、Claude Code）上，SkillOpt 在所有 52 个评估单元（模型、基准、框架）中均取得最佳或并列最佳成绩，并在每个单元中击败了所有竞争对手（包括人类、单次 LLM、Trace2Skill、TextGrad、GEPA 和 EvoSkill 生成的技能）。在 GPT-5.5 上，它将无技能基线准确率在直接对话中提升了 +23.5 个百分点，在 Codex 智能体循环中提升了 +24.8 个百分点，在 Claude Code 中提升了 +19.1 个百分点。迁移实验进一步表明，优化后的技能工件在跨模型规模、跨 Codex 与 Claude Code 执行环境、以及迁移至邻近数学基准（无需进一步优化）时仍能保持其价值。

译自 Hugging Face · Daily Papers · arXiv:2605.23904 · 录于二〇二六年五月二十五日