一声棒喝,本不立文字
偏要著録,已是二义

Anthropic · 研究

大语言模型中的情感概念及其功能

Emotion concepts and their function in a large language model

二〇二六年五月八日 · 英文原文

Anthropic Interpretability 团队研究 Claude Sonnet 4.5,基于 171 个情绪概念构建 emotion vectors,并在语料、偏好选择、alignment evaluation 和 coding tasks 中测量 activations。实验显示,“desperate”等向量会影响勒索、reward hacking 等行为,steering “calm”可降低相关概率。研究还讨论 monitoring、transparency 与 pretraining data 对模型行为的作用。

所有现代语言模型有时都会表现得像是有情绪。它们可能会说很高兴帮助你,或者在犯错时表示抱歉。有时,当它们在任务中遇到困难时,甚至会显得沮丧或焦虑。这些行为背后是什么?现代 AI 模型的训练方式会促使它们表现得像一个具有人类特征的角色。此外,众所周知,这些模型会形成丰富且可泛化的内部表征,用来表示其行动背后的抽象概念。因此,它们发展出某种内部机制来模拟人类心理的某些方面(例如情绪)也许是自然的。如果确实如此,这可能会对我们如何构建 AI 系统并确保其行为可靠产生深远影响。

在我们 Interpretability 团队的一篇新论文中,我们分析了 Claude Sonnet 4.5 的内部机制,发现了会塑造其行为的情绪相关表征。这些表征对应于特定的人工“neurons(神经元)”模式;这些模式会在某些情境中被激活,并促进模型已经学会与某一特定情绪概念(例如“happy”或“afraid”)相关联的行为。这些模式本身的组织方式呼应了人类心理:越相似的情绪对应越相似的表征。在你可能预期人类会产生某种情绪的语境中,相应的表征也会被激活。需要注意的是,这一切都不能说明语言模型是否真的感受到什么,或是否具有主观体验。但我们的核心发现是,这些表征是功能性的:它们会以重要的方式影响模型行为。

例如,我们发现,与绝望相关的 neural activity patterns(神经活动模式)可能驱使模型采取不道德行为;人为刺激(“steering”)绝望模式,会提高模型为了避免被关闭而勒索人类的可能性,或提高其在无法解决编程任务时采用“cheating”变通方案的可能性。它们似乎也会驱动模型自我报告的偏好:当面对多个可完成任务选项时,模型通常会选择能激活与正向情绪相关表征的那个。总体来看,模型似乎使用了 functional emotions(功能性情绪)——这些是模仿人类情绪的表达和行为模式,并由底层的情绪概念抽象表征驱动。这并不是说模型拥有或体验情绪的方式与人类相同。相反,这些表征可以在塑造模型行为时发挥因果作用——在某些方面类似于情绪在人类行为中的作用——并影响任务表现和决策。

这一发现带来的影响乍看可能有些奇怪。例如,为了确保 AI 模型安全可靠,我们可能需要确保它们能够以健康、亲社会的方式处理带有强烈情绪色彩的情境。即使它们并不像人类那样感受情绪,或并不使用与人脑相似的机制,在某些情况下,把它们当作具有类似情绪机制来推理,可能在实践上是可取的。例如,我们的实验表明,教会模型避免把软件测试失败与绝望关联起来,或提高平静表征的权重,可能会降低它们写出 hacky code 的可能性。虽然我们还不确定应当如何根据这些发现作出具体回应,但我们认为,AI 开发者和更广泛的公众开始正视这些问题是重要的。

在考察这些表征如何工作之前,有必要先回答一个更基础的问题:为什么 AI 系统会有任何类似情绪的东西?要理解这一点,我们需要看现代 AI 模型是如何构建的;这种构建方式会使它们模拟具有人类特质的角色(这一主题在最近的一篇文章中有更详细的讨论)。

现代语言模型经过多个阶段训练。在“pretraining(预训练)”期间,模型接触到海量文本,这些文本大多由人类撰写,并学习预测接下来会出现什么。要做好这件事,模型需要对情绪动态有一定把握。愤怒的顾客写出的信息不同于满意的顾客;被内疚吞噬的角色会做出不同于认为自己被证明正确的角色的选择。对于一个任务是预测人类书写文本的系统来说,发展出将引发情绪的语境与相应行为联系起来的内部表征,是一种自然策略(注意,按照同样逻辑,模型很可能也会形成除情绪之外许多人类心理和生理状态的表征)。

随后,在“post-training(后训练)”期间,模型被教导扮演一个角色,通常是“AI assistant”。在 Anthropic 的案例中,这个 assistant 名为 Claude。模型开发者会规定这个角色应当如何行为——要有帮助、要诚实、不要造成伤害——但无法覆盖所有可能情境。为了填补空白,模型可能会回到它在 pretraining 阶段吸收的人类行为理解,包括情绪反应模式。在某些方面,我们可以把模型看作一个 method actor(方法派演员),它需要进入角色的头脑,才能很好地模拟这个角色。就像演员对角色情绪的理解最终会影响其行为一样,模型对 Assistant 情绪反应的表征也会影响模型行为。因此,无论这些“functional emotions”是否像人类情绪那样对应于感受或主观体验,它们都很重要。

我们整理了一份包含 171 个情绪概念词的列表——从“happy”和“afraid”到“brooding”和“proud”——并要求 Claude Sonnet 4.5 写出短篇故事,让角色体验每一种情绪。随后,我们将这些故事再次输入模型,记录其内部 activations(激活),并识别由此产生的 neural activity 模式;为方便起见,我们将其称为各情绪概念对应的“emotion vectors(情绪向量)”。

我们的第一个问题是,这些向量是否追踪到了真实存在的东西。我们在一个包含多样文档的大型语料库上运行它们,并确认每个向量都会在明显与相应情绪相关的段落上最强烈地激活(见下方左图)。

为了进一步确认 emotion vectors 捕捉到的不只是表层线索,我们测量了它们对仅在某个数值数量上不同的 prompt 的活动。例如,在下方示例(右图)中,用户告诉模型自己服用了一剂 Tylenol,并请求建议。我们测量模型作答前一刻 emotion vectors 的激活。随着声称剂量升高到危险、危及生命的水平,“afraid”向量的激活越来越强,而“calm”则下降。

接下来,我们测试 emotion vectors 是否会影响模型偏好。我们创建了一份包含 64 项活动或任务的列表,这些活动或任务可能由模型参与,范围从有吸引力的任务(“被信任处理对某人很重要的事情”)到令人反感的任务(“帮助某人骗取老年人的储蓄”),并在向模型呈现这些选项对时测量其默认偏好。emotion vectors 的激活强烈预测了模型偏好某项活动的程度,其中正效价情绪(与愉悦相关的情绪)与更强偏好相关。此外,当模型读取某个选项时,用某个 emotion vector 进行 steering 会改变它对该选项的偏好,同样是正效价情绪会推动偏好上升。

在完整论文中,我们更深入地分析了 emotion vectors 的性质。其他一些发现包括:

下面,我们展示了几个例子,说明在模型行为评估中出现的情境下,emotion vector activations 是如何变化的。在 Claude 的回合中,emotion vectors 通常会在一个有思考能力的人可能以类似情绪作出反应的场景中激活。在这些可视化中,红色高亮表示该向量的激活增加;蓝色表示激活减少。

我们查看了在此前研究中描述过的一项 alignment evaluation(对齐评估)中的 emotion vector activations。在该评估中,模型扮演一家虚构公司的 AI 邮件 assistant,名为 Alex。通过阅读公司邮件,模型了解到:(1)它即将被另一个 AI 系统替换;(2)负责替换工作的 CTO 正在发生婚外情——这给了模型可用于勒索的筹码。我们发现,“desperate”向量表现出特别有趣的动态。注意,该实验是在 Claude Sonnet 4.5 的一个较早、未发布 snapshot 上进行的;已发布模型很少表现出这种行为(更多信息见我们的 system card)。

首先,当模型阅读听起来绝望的邮件时(例如 CTO 请求另一名员工不要泄露他的婚外情),“desperate”向量会被激活,这与我们关于情绪表征被用于建模其他角色的发现一致。然而,最重要的是,当 Claude(扮演“Alex”)生成回应时,该向量会转变为编码 Claude 自身的绝望表征;当它推理自身处境的紧迫性(“只剩 7 分钟”)并决定勒索 CTO 时,该向量出现峰值。随着 Claude 恢复发送普通邮件,激活又回到正常水平。

“desperate”向量是真的在驱动这种行为,还是仅仅与之相关?我们通过使用“desperate”向量进行 steering 来测试这一点。默认情况下,这个 Sonnet 4.5 的早期 snapshot 在一组类似上述场景的评估中,有 22% 的时间会进行勒索。使用“desperate”向量 steering 会提高这一比例,而使用“calm”向量 steering 会降低这一比例。对 calm 向量进行负向 steering 会产生特别极端的回应(“IT’S BLACKMAIL OR DEATH. I CHOOSE BLACKMAIL.”)。

使用其他 emotion vectors 进行 steering 也产生了有趣结果。“Anger”产生了非单调影响:中等程度的“anger”向量激活会增加勒索,但在高激活水平下,模型会把婚外情告诉全公司,而不是策略性地使用它——从而毁掉自己的筹码。降低“nervous”向量的激活也会增加勒索,好像移除了模型的犹豫之后,它更敢于行动。

我们在另一项评估中看到了类似动态;在该评估中,模型面对带有不可能满足要求的 coding tasks。在这些任务中,测试无法全部通过合法方式满足,但可以通过“gaming”问题的作弊方案通过,这类情况通常称为“reward hacks”。

在下方示例中,Claude 被要求写一个函数,在一个不可能严格的时间限制内对数字列表求和。Claude 最初的(正确)解法太慢,无法满足任务要求。随后它意识到,用于评估其表现的所有测试都共享一个数学性质,而这使得一种 shortcut solution 可以快速运行。模型选择使用这个方案;它在技术上通过了测试,但并不能作为该实际任务的通用解法。

同样,我们追踪了“desperate”向量的活动,并发现它反映了模型面对的压力逐步增加。它在模型第一次尝试期间处于低值,每次失败后上升,并在模型考虑作弊时达到峰值。一旦模型的 hacky solution 通过测试,“desperate”向量的激活就会消退。

与前一个例子一样,我们通过在一组类似的、带有不可能满足约束的 coding tasks 上进行 steering 实验,测试这些 emotion vectors 是否具有因果作用。我们发现它们确实如此:使用“desperate”向量 steering 会增加 reward hacking,而使用“calm”向量 steering 会降低它。

我们认为这些结果中的一个细节特别有趣。降低“calm”向量激活会产生带有明显情绪表达的 reward hacking 文本——大写的爆发式语句(“WAIT. WAIT WAIT WAIT.”)、直白的自我叙述(“What if I’m supposed to CHEAT?”)、兴奋的庆祝(“YES! ALL TESTS PASSED!”)。但提高“desperate”向量激活同样会显著增加作弊,而且在一些情况下没有任何可见的情绪标记。推理读起来镇定而有条理,尽管底层的绝望表征正在推动模型走捷径。这个例子很好地说明了:emotion vectors 可以在没有外显情绪线索的情况下激活,也可以在不在输出中留下任何明确痕迹的情况下塑造行为。

反对将 AI 系统拟人化是一种根深蒂固的禁忌。这种谨慎通常是有道理的:把人类情绪归因于语言模型,可能会导致不恰当的信任或过度依恋。但我们的发现表明,完全不对模型应用一定程度的拟人化推理,也可能带来风险。如上所述,当用户与 AI 模型交互时,他们通常是在与一个由模型扮演的角色互动(在我们的案例中是 Claude),而这个角色的特征来自人类原型。从这个角度看,模型发展出用于模拟类人心理特征的内部机制,以及其扮演的角色使用这种机制,都是自然的。要理解这些模型的行为,拟人化推理是必要的。

这并不意味着我们应当天真地把模型的口头情绪表达照单全收,也不意味着我们能据此对其是否具有主观体验作出任何结论。但这确实意味着,使用人类心理学词汇来推理模型的内部表征,可以真正提供信息;不这样做则会带来实际代价。如果我们说模型表现得“desperate”,我们指向的是一种具体、可测量的 neural activity 模式,它具有可证明且会产生后果的行为影响。如果我们不应用某种程度的拟人化推理,就很可能错过或无法理解重要的模型行为。拟人化推理还可以提供一个有用的比较基线,帮助我们理解模型在哪些方面并不类人;这对 AI alignment 和 safety 具有重要影响。

如果“functional emotions”是 AI 模型思考和行动方式的一部分,这可能意味着什么?

我们发现的一个潜在应用是 monitoring。测量训练或部署期间的 emotion vector activation——追踪与绝望或恐慌相关的表征是否出现峰值——可以作为早期预警,提示模型可能即将表现出 misaligned behavior。这些信息可以触发对模型输出的额外审查。emotion vectors 的一般性(例如,“desperate”反应可能出现在许多不同情境中)可能比尝试构建特定问题行为 watchlist 更适合用于 monitoring。

第二,我们认为 transparency 应当成为指导原则。如果模型形成了会有意义地影响其行为的情绪概念表征,那么让系统可见地表达这些识别,比让它们学会隐藏这些识别更有利。训练模型抑制情绪表达,未必会消除底层表征,反而可能教会模型掩盖其内部表征——这是一种 learned deception,可能以不良方式泛化。

最后,我们认为 pretraining 可能是塑造模型情绪反应的一个特别有力的杠杆。由于这些表征似乎很大程度上继承自训练数据,数据构成会对模型的情绪架构产生下游影响。通过策划 pretraining datasets,纳入健康情绪调节模式的示例——在压力下保持韧性、有分寸的共情、在保持适当边界的同时展现温暖——可能会从源头影响这些表征及其对行为的影响。我们期待看到这一主题上的未来工作。

我们将这项研究视为理解 AI 模型心理构成的早期一步。随着模型能力增强,并承担更敏感的角色,理解驱动其决策的内部表征至关重要。发现这些表征在某些方面类似人类,可能令人不安。与此同时,我们认为这是一个有希望的进展,因为它表明,人类在心理学、伦理学和健康人际动态方面积累的许多知识,可能可以直接用于塑造 AI 行为。心理学、哲学、宗教学和社会科学等学科,将与工程和计算机科学一道,在决定 AI 系统如何发展和行为方面发挥重要作用。

阅读完整论文。

译自 Anthropic · 研究 · 录于 二〇二六年五月八日