SkillsVote:从收集、推荐到演进的Agent技能全生命周期治理
SkillsVote: Lifecycle Governance of Agent Skills from Collection, Recommendation to Evolution
来自 Memtensor Research Group
摘要
长周期LLM智能体(agent)在执行过程中留下的轨迹可转化为可复用的经验,但原始轨迹噪声大且难以管控。我们将智能体技能(Agent Skills)定义为一种经验模式,它耦合了可执行的脚本与不可执行的流程指导。然而,开放技能生态中存在冗余、不均衡且对环境敏感的工件,不加甄别的更新会污染未来的上下文。我们提出SkillsVote——一个覆盖技能收集、推荐到演进的完整生命周期治理框架。SkillsVote对百万级开源语料库进行环境需求、质量与可验证性画像,进而为可验证技能合成任务。在执行前,SkillsVote通过结构化技能库进行智能体库搜索,暴露指令性技能上下文;执行后,它将轨迹分解为技能关联的子任务,将结果归因于技能使用、智能体探索、环境与结果信号,仅允许成功的可复用发现进入基于证据的更新。在评估中,离线演进使GPT-5.2在Terminal-Bench 2.0上提升最高7.9个百分点,在线演进使SWE-Bench Pro提升最高2.6个百分点。总体而言,当系统控制暴露、归因与保存时,受治理的外部技能库可在不更新模型的情况下改进冻结的智能体。
译自 Hugging Face · Daily Papers · arXiv:2605.18401 · 录于 二〇二六年五月十九日