Hugging Face · Daily Papers

从上下文到技能：语言模型能否熟练地从上下文中学习

From Context to Skills: Can Language Models Learn from Context Skillfully?

Shuzheng Si, Haozhe Zhao, Yu Lei, Qingyi Wang, Dingwei Chen, Zhitong Wang, Zhenhailong Wang, Kangyang Luo 等 13 位

二〇二六年五月五日 · arXiv:2604.27660 · PDF · Code

摘要

许多现实任务要求语言模型（LMs）在超出其参数化知识范围的复杂上下文中进行推理。这需要 context learning，即让 LMs 直接从给定上下文中学习相关知识。一个直观的解决方案是 inference-time skill augmentation：将上下文中的规则和流程提取为自然语言形式的 skills。然而，在 context learning 场景中构建这类 skills 面临两个挑战：对长篇且技术密集的上下文进行人工 skill 标注成本过高，以及自动化 skill 构建缺乏外部反馈。

本文提出 Ctx2Skill，这是一个自演化框架，能够在没有人工监督或外部反馈的情况下，自主发现、改进并选择特定于上下文的 skills。其核心是一个多 agent self-play 循环：Challenger 生成探测任务和评分标准，Reasoner 在不断演化的 skill 集引导下尝试求解，neutral Judge 提供二元反馈。关键在于，Challenger 和 Reasoner 都会通过累积的 skills 进行演化：专门的 Proposer 和 Generator agents 分析失败案例，并将其综合为面向双方的针对性 skill 更新，从而实现自动化的 skill 发现与改进。

为防止因任务生成越来越极端、skill 累积过度特化而导致的对抗性崩塌，我们进一步引入 Cross-time Replay 机制，为 Reasoner 侧识别出在代表性案例之间达到最佳平衡的 skill 集，确保 skill 演化具备稳健性和泛化能力。最终得到的 skills 可以接入任意语言模型，以获得更好的 context learning 能力。在 CL-bench 的四项 context learning 任务上进行评估时，Ctx2Skill 在不同 backbone models 上都持续提升了解题成功率。