Hugging Face · Daily Papers

从技能文本到技能结构：面向 agent 技能的调度-结构-逻辑表示

From Skill Text to Skill Structure: The Scheduling-Structural-Logical Representation for Agent Skills

Qiliang Liang, Hansi Wang, Zhong Liang, Yang Liu

来自 Peking University

二〇二六年五月八日 · arXiv:2604.24026 · PDF

摘要

LLM agent 越来越依赖可复用的技能，即由指令、控制流、约束和工具调用组成的能力包。然而，在当前大多数 agent 系统中，技能仍以文本密集型 artifact 表示，包括 SKILL.md 风格的文档，以及其机器可用证据很大程度上仍嵌入自然语言描述中的结构化记录。这给以技能为中心的 agent 系统带来了挑战：管理技能集合，以及利用技能支持 agent，都需要对调用接口、执行结构和具体副作用进行推理，而这些内容往往纠缠在同一文本表面之中。因此，对技能知识进行显式表示，可能有助于让这些 artifact 更易于被机器获取和利用。

借鉴 Schank 和 Abelson 关于语言知识表示的经典工作中的 Memory Organization Packets、Script Theory 和 Conceptual Dependency，我们提出了据我们所知首个面向 agent 技能 artifact 的结构化表示：Scheduling-Structural-Logical（SSL）表示。它将技能级调度信号、场景级执行结构，以及逻辑级动作与资源使用证据解耦。我们使用基于 LLM 的 normalizer 实例化 SSL，并在一个技能语料库上通过两项任务进行评估：Skill Discovery 和 Risk Assessment。结果显示，SSL 显著优于纯文本 baseline：在 Skill Discovery 中，SSL 将 MRR 从 0.573 提升到 0.707；在 Risk Assessment 中，将 macro F1 从 0.744 提升到 0.787。

这些发现表明，显式的、基于来源的结构能使 agent 技能更易于搜索和审查。它们也说明，SSL 更适合被理解为迈向更可检查、可复用且在操作层面可执行的 agent 系统技能表示的一项实践步骤，而不是一个已经完成的标准，也不是用于管理和使用技能的端到端机制。