服从性与合理性:大型语言模型的推理可控性
Compliance versus Sensibility: On the Reasoning Controllability in Large Language Models
大型语言模型(LLMs)被认为会通过 pre-training 数据中的共享 inference patterns 获得 reasoning 能力,并可通过 Chain-of-Thought(CoT)实践进一步激发。然而,induction、deduction 和 abduction 等基础 reasoning patterns 能否从具体问题实例中解耦,仍是模型 controllability 的关键挑战,也关系到对 reasoning controllability 的理解。
本文从 reasoning conflicts 的视角,对这一问题进行了首次系统研究:reasoning conflicts 指的是,由强制使用偏离目标任务预期的逻辑 schemata 所引发的 parametric 信息与 contextual 信息之间的显式张力。我们的评估显示,LLMs 始终优先考虑 sensibility 而非 compliance:即使面对冲突指令,也更倾向于采用适合任务的 reasoning patterns。值得注意的是,任务准确率并不完全由 sensibility 决定;模型即便使用冲突 patterns,往往仍能保持较高性能,这表明其依赖内化的 parametric memory,且这种依赖会随模型规模增大而增强。
我们进一步证明,reasoning conflicts 可在模型内部被检测到,因为在冲突片段中 confidence scores 会显著下降。Probing 实验证实,reasoning types 从中后层起以线性方式被编码,表明存在 activation-level controllability 的潜力。基于这些发现,我们引导模型趋向 compliance,使其指令遵循能力最高提升 29%。总体而言,我们的研究表明,尽管 LLM reasoning 锚定于具体实例,但主动的机制性干预可以有效地将逻辑 schemata 与数据解耦,为提升 controllability、faithfulness 和 generalizability 提供了一条路径。