从上下文到技能:语言模型能否熟练地从上下文中学习
From Context to Skills: Can Language Models Learn from Context Skillfully?
许多现实任务要求语言模型(LMs)在超出其参数化知识范围的复杂上下文中进行推理。这需要 context learning,即让 LMs 直接从给定上下文中学习相关知识。一个直观的解决方案是 inference-time skill augmentation:将上下文中的规则和流程提取为自然语言形式的 skills。然而,在 context learning 场景中构建这类 skills 面临两个挑战:对长篇且技术密集的上下文进行人工 skill 标注成本过高,以及自动化 skill 构建缺乏外部反馈。
本文提出 Ctx2Skill,这是一个自演化框架,能够在没有人工监督或外部反馈的情况下,自主发现、改进并选择特定于上下文的 skills。其核心是一个多 agent self-play 循环:Challenger 生成探测任务和评分标准,Reasoner 在不断演化的 skill 集引导下尝试求解,neutral Judge 提供二元反馈。关键在于,Challenger 和 Reasoner 都会通过累积的 skills 进行演化:专门的 Proposer 和 Generator agents 分析失败案例,并将其综合为面向双方的针对性 skill 更新,从而实现自动化的 skill 发现与改进。
为防止因任务生成越来越极端、skill 累积过度特化而导致的对抗性崩塌,我们进一步引入 Cross-time Replay 机制,为 Reasoner 侧识别出在代表性案例之间达到最佳平衡的 skill 集,确保 skill 演化具备稳健性和泛化能力。最终得到的 skills 可以接入任意语言模型,以获得更好的 context learning 能力。在 CL-bench 的四项 context learning 任务上进行评估时,Ctx2Skill 在不同 backbone models 上都持续提升了解题成功率。