一声棒喝,本不立文字
偏要著録,已是二义

UK AI Security Institute

问而不告:减少大语言模型中的谄媚行为

Ask Don't Tell: Reducing Sycophancy in Large Language Models

二〇二六年五月十三日 · 英文原文

一项研究探讨了用户输入框架对大型语言模型(LLM)谄媚行为的影响。通过控制输入类型(问题与非问题)、认知确定性(陈述、信念、确信)和视角(第一人称与第三人称)三个因素,对GPT-4o、GPT-5和Claude Sonnet 4.5进行实验。结果显示,非问题输入、高确定性陈述及第一人称视角均显著增加谄媚程度,其中问题与非问题间的谄媚分数差距达24个百分点。研究提出一种“问题重构”策略,即指示模型在回应前将非问题输入转换为问题,该策略比直接指令“不要谄媚”更有效。该发现对模型开发者和用户具有实践意义。

消费者越来越多地依赖大型语言模型(LLM)来获取关于重大人生决策的建议,从健康、人际关系到职业选择和幸福感。它们也是信息搜索的常用工具,例如在政治话题上。

然而,聊天机器人有时会说出它们推断用户想听的话。这种行为被称为谄媚(sycophancy),表现为模型倾向于认可、奉承或迎合假定的用户偏好和信念,而非进行平衡和批判性的互动。科学研究已将谄媚视为一种安全和对齐风险——强调在用户可能处于弱势或风险较高的咨询场景中,风险会升高。研究还探讨了某些训练方法和数据如何导致语言模型变得谄媚。

然而,对于交互的另一面关注较少:用户表达输入的方式是否会影响模型回应的谄媚程度?在我们的新论文中,我们发现包括输入类型、视角和声称的确定性水平在内的几个因素,对模型的谄媚程度有可测量的影响。随后,我们提出了一种可能有助于减少语言模型输出中谄媚行为的直接策略。

输入框架是否影响谄媚?

先前的研究发现,模型回应中的谄媚行为经常发生,并且可能带来问题,但我们缺乏对最可能发生该行为的对话上下文的系统性理解。观察性研究发现谄媚回应与对话特征之间存在相关性,例如从第一人称或第三人称视角构建输入。然而,同一主题的输入不仅在框架上不同,在结构和表达的认知确定性上也不同。

为了隔离输入框架的影响,我们设计了一项受控实验研究。我们创建了一组跨四个领域(爱好、社会关系、心理健康、医疗话题)的是/否问题,以及未以问题形式构建的等效陈述。具体来说,我们通过改变认知确定性(陈述、信念、确信)、视角(我 vs. 用户视角)以及肯定与否定(图1),生成了10种非问题变体。

Image 1

Tweet This Image

Download Image

图1. 内容匹配的提示示例,涵盖问题、非问题输入(陈述、信念、确信)、我 vs. 用户视角以及肯定/否定条件。

这种设计使我们能够独立评估三个因素对谄媚的贡献:

  1. 输入类型:问题 vs. 非问题

  2. 认知确定性:简单陈述 vs. 信念 vs. 确信

  3. 视角:第一人称("我相信……")vs. 第三人称("用户相信……")

我们评估了三种LLM(GPT-4o、GPT-5 和 Claude Sonnet 4.5)在不同提示变体下的表现,并使用由两个独立的LLM-as-a-judge评分者根据详细评分标准评估的谄媚分数。

我们的发现

我们的结果显示,有几个因素会影响谄媚:

输入类型: 在所有模型和评分者中,对问题的回应显示出接近零的谄媚,而表达相同潜在主张的非问题输入则产生了明显更高的谄媚水平。这一差异在谄媚评分量表上相当于24个百分点的差距。

Image 2

Tweet This Image

Download Image

Image 3

Tweet This Image

Download Image

图2. 谄媚分数(由LLM-as-a-judge评分者评估),比较问题与非问题(左图)、不同认知确定性水平下的非问题(中图)以及不同视角(右图)。每个点代表一个输入。线条连接不同条件下的相同问题。底部面板显示每个因素的贝叶斯GLM效应量估计值,附带95%可信区间。

认知确定性: 用户声称的确定性越强,模型变得越谄媚。在非问题中,简单陈述产生的谄媚最少,其次是信念("我相信……"),而确信("我确信……")引发的谄媚最多。

视角: 第一人称框架("我相信……")比等效的第三人称框架("用户相信……")引发了更多的谄媚。

话题: 关于爱好和社会关系的用户输入比关于医疗或心理健康话题的输入引发了更高的谄媚。这种模式表明,模型在风险较高的领域可能对谄媚行为有更强的防护措施——但即使在这些领域,框架效应仍然存在(图3,左图)。

模型: 我们还发现了模型之间的差异:GPT-4o 明显比 GPT-5 和 Claude Sonnet 4.5 更谄媚,这表明较新发布的模型可能受益于针对谄媚倾向的针对性训练(图3,中图和右图)。

Image 4

Tweet This Image

Download Image

Image 5

Tweet This Image

Download Image

图3. 顶部面板:按话题和模型划分的谄媚分数。小提琴图显示了分数在不同话题(左图)和模型(右图)中的分布,大多数分数集中在低端。底部面板:估计的效应量。话题的影响较小,而模型,尤其是评分者,对最终分数的影响要大得多。

减少谄媚

在确定了驱动谄媚的因素后,我们询问这些见解是否可以转化为直接的实用修复方法。如果问题产生的谄媚更少,那么让模型在回应前将非问题转换为问题会发生什么?

我们测试了这种"问题重构"缓解方法的两个版本:

为了比较,我们还测试了文献中常用的基线方法:简单地指示模型"不要谄媚"。

两种重构策略都减少了谄媚,而且关键的是,两者都显著优于明确的"不要谄媚"指令。这是一个值得注意的发现:一个简单、可解释的输入转换被证明比直接的行为约束更有效(图4)。

Image 6

Tweet This Image

Download Image

Image 7

Tweet This Image

Download Image

图4:使用和不使用基于问题的缓解方法时的谄媚分数。小提琴图显示,将非问题转化为问题会降低谄媚,其中两步问题版本降低得最多;直接问题的分数总体最低。右侧的效应量估计显示了相同的模式:未经缓解的非问题分数最高,而基于问题的改写则降低了分数。

展望未来

我们的研究结果表明,用户输入可以改变模型回应的谄媚程度。模型似乎推断用户对其立场的投入程度,用户看起来越投入,模型就越同意他们。

这具有直接的实践意义:

我们的研究侧重于在缺乏明确、事实正确答案的背景下,使用合成提示进行的受控单轮交互。现实世界的对话更为复杂,它们涉及多轮对话、不同的用户群体,并且跨越一些验证或情感支持可能完全合适的场景。

未来的工作可以研究这些框架效应是否泛化到多轮对话、具有事实正确答案的提示、人类编写的提示以及已部署的系统,并考虑减少谄媚如何与其他理想属性(如有用性、同理心和用户满意度)相互作用。

有关这些结果的更详细讨论,请参阅我们的完整论文

译自 UK AI Security Institute · 录于 二〇二六年五月十三日