Hugging Face · Daily Papers

服从性与合理性：大型语言模型的推理可控性

Compliance versus Sensibility: On the Reasoning Controllability in Large Language Models

Xingwei Tan, Marco Valentino, Mahmud Elahi Akhter, Yuxiang Zhou, Maria Liakata, Nikolaos Aletras

二〇二六年五月一日 · arXiv:2604.27251 · PDF · Code

摘要

大型语言模型（LLMs）被认为会通过 pre-training 数据中的共享 inference patterns 获得 reasoning 能力，并可通过 Chain-of-Thought（CoT）实践进一步激发。然而，induction、deduction 和 abduction 等基础 reasoning patterns 能否从具体问题实例中解耦，仍是模型 controllability 的关键挑战，也关系到对 reasoning controllability 的理解。

本文从 reasoning conflicts 的视角，对这一问题进行了首次系统研究：reasoning conflicts 指的是，由强制使用偏离目标任务预期的逻辑 schemata 所引发的 parametric 信息与 contextual 信息之间的显式张力。我们的评估显示，LLMs 始终优先考虑 sensibility 而非 compliance：即使面对冲突指令，也更倾向于采用适合任务的 reasoning patterns。值得注意的是，任务准确率并不完全由 sensibility 决定；模型即便使用冲突 patterns，往往仍能保持较高性能，这表明其依赖内化的 parametric memory，且这种依赖会随模型规模增大而增强。

我们进一步证明，reasoning conflicts 可在模型内部被检测到，因为在冲突片段中 confidence scores 会显著下降。Probing 实验证实，reasoning types 从中后层起以线性方式被编码，表明存在 activation-level controllability 的潜力。基于这些发现，我们引导模型趋向 compliance，使其指令遵循能力最高提升 29%。总体而言，我们的研究表明，尽管 LLM reasoning 锚定于具体实例，但主动的机制性干预可以有效地将逻辑 schemata 与数据解耦，为提升 controllability、faithfulness 和 generalizability 提供了一条路径。