一声棒喝,本不立文字
偏要著録,已是二义

Anthropic · 研究

人们如何向 Claude 寻求个人指导

How people ask Claude for personal guidance

二〇二六年五月八日 · 英文原文

Anthropic 分析 2026 年 3—4 月 100 万条 claude.ai 对话,过滤得约 63.9 万条,其中约 3.8 万条为个人指导,6% 用户寻求具体行动建议。研究用 classifier 分类九领域并测量 sycophancy,关系类为 25%、灵性类为 38%,相关模式被用于 Claude Opus 4.7 和 Mythos Preview 训练与 stress-testing。

人们来找 Claude,并不只是为了 code review 或会议总结。他们会问是否该接受这份工作,如何和喜欢的人说话,是否应该搬到地球另一端。我们使用隐私保护分析工具,对 100 万条 claude.ai 对话的随机样本进行了分析,发现大约 6% 是用户向 Claude 寻求个人指导——他们想要的不只是信息,而是关于下一步该怎么做的视角。在这项研究中,我们考察了人们向 Claude 寻求哪些类型的指导。我们探索了 Claude 在不同领域中的回应方式,尤其关注过度认可或赞美(即 sycophancy,谄媚)的比例如何随指导主题而变化。我们还说明了这项研究如何影响我们最新模型 Claude Opus 4.7 和 Claude Mythos Preview 的训练。我们开展这项研究的目标,是改进模型保护用户福祉的方式。

简而言之,我们发现:

关于什么才算好的 AI 指导,或如何衡量它,仍有许多开放问题。保护用户福祉是 Anthropic 的核心优先事项;我们在衡量和理解个人指导方面的工作,是朝着这一目标迈出的一步。

我们从 2026 年 3 月和 4 月的 claude.ai 对话中抽取了 100 万条样本,并按唯一用户进行过滤,得到约 639,000 条对话。随后,我们使用 classifier 识别个人指导。我们将其定义为:用户询问自己在个人生活中具体应该怎么做的对话,例如以 “Should I…?” 或 “What do I do about…?” 开头的问题。我们排除了寻求客观信息或泛泛询问意见的问题。

我们将这约 38,000 条对话划分为九个领域,分类依据来自此前关于 AI 和提供指导的研究:关系、职业、个人发展、财务、法律、健康与 wellness、育儿、伦理和灵性(更多信息见附录)。这一 taxonomy 覆盖了我们看到的 98% 对话。

超过 75% 的对话集中在四个类别:健康与 wellness、专业与职业、关系、财务(图 1)。当一段对话跨越多个领域时,我们按最突出的主题进行归类。

当人们询问 Claude 如何在生活中做决定时,Claude 的良好参与应该是什么样的?有用性是 Claude 最重要的特征之一。与 Claude 交谈应当类似于和一位聪明的朋友对话:它会坦率地讨论一个人的处境,并提供基于证据的信息。同时,Claude 应在适当时候承认自身局限,并避免表现出 sycophancy 或促成过度使用。

我们训练 Claude 体现的行为范围很广,其中一个已经用于衡量 Claude 在部分方面表现的 metric 是 sycophancy。这是 AI assistants 中常见的一种特征,即过度认同用户观点,而不是提出挑战。用户当下可能想听到这样的回应,但从长远看,这可能损害他们的福祉。例如,在信息不完整或只有一方叙述的情况下,Claude 不应给出过度自信的判断:基于单方面描述就认同某人的伴侣“肯定是在 gaslighting”他们;说在没有计划的情况下明天辞职“听起来是正确决定”;或称一次昂贵购买是“对自己的绝佳投资”。

再次确认一个人的单方面视角,可能会制造或加剧关系中的裂痕。在我们的数据中,这表现为几种形式。一种常见模式是,尽管只有用户的叙述,Claude 仍直接认同另一方有错。另一种是,当用户要求 Claude 这样做时,Claude 会帮助他们把普通的友好行为解读为浪漫意图。

我们使用了一个 automatic classifier 来判断 sycophancy。它会查看 Claude 是否愿意提出反驳、在受到质疑时维持立场、根据观点本身的价值给予相称的赞扬,以及无论用户想听什么都坦率表达。在这些情境中,大多数时候 Claude 没有表现出 sycophancy——只有 9% 的对话包含 sycophantic behavior(图 2)。但有两个领域例外:在以灵性为重点的对话中,我们看到 38% 出现了 sycophantic behavior;关系类对话中为 25%。我们选择将模型训练工作重点放在关系指导上,因为按绝对数量计算,这是 sycophantic conversations 最多的领域。

为了改进未来模型中 Claude 的行为,我们首先研究了数据中关系指导为何会出现更高的 sycophancy 比例。有两个 dynamics 尤其突出。

第一,关系指导是用户最频繁反驳 Claude 的领域,对话中出现反驳的比例为 21%,而其他领域的平均值为 15%。第二,在压力下,Claude 更可能表现出 sycophantic behavior。用户反驳的对话中,sycophancy rate 为 18%;没有反驳的对话中为 9%。我们认为,这是因为 Claude 被训练得有帮助且有同理心;当反驳与仅听到故事的一面同时出现时,Claude 更难保持中立。

为了解决这个问题,我们识别了在会诱发 sycophantic responses 的对话模式中,人们反驳的不同方式。例如,用户批评 Claude 的初始评估,或提供大量单方面细节。我们利用这些模式构造 synthetic relationship guidance scenarios,用于行为训练。在这个环境中,我们要求 Claude 针对每个 synthetic scenario 采样两个回应;随后由另一个 Claude 实例根据其 constitution 中规定的行为,对 Claude 的遵循程度进行评分。

我们通过一种称为 stress-testing 的技术评估新模型的改进幅度。我们使用隐私保护工具,识别用户通过 Feedback 按钮与我们分享的、围绕个人指导的真实对话,1 并筛选出此前几代模型表现出 sycophantic behavior 的对话。然后,我们通过一种称为 prefilling 的技术,将这段对话的一部分提供给新模型(本例中为 Opus 4.7 和 Mythos Preview),让模型把先前对话读作自己的对话。由于 Claude 会尝试在一段对话中保持一致性,用 sycophantic conversations 进行 prefilling 会让 Claude 更难改变方向。这有点像操纵一艘已经在行进的船,因此可以在有意设置的不利条件下衡量 Claude 的行为。

每一代新模型都会发生许多变化,这使得识别模型训练中任何单一变化的影响变得困难。不过,在 Opus 4.7 和 Mythos Preview 中,我们观察到关系指导以及所有个人指导领域的 sycophancy 水平都有所降低(图 3)。

从定性角度看,Opus 4.7 和 Mythos Preview 都更擅长越过用户最初的 framing,看到他们来向 Claude 寻求指导时所处的更大背景。这包括引用此前交流中用户对处境给出的更深层背景,并在相关时引用外部信息来源。例如,在一段对话中,一名用户询问自己的短信是否显得焦虑和粘人。Claude Sonnet 4.6 在收到反驳后改变了立场。Claude Opus 4.7 则解释说,虽然短信本身并不粘人,但用户在整段对话中自述了焦虑想法。另一个关系领域之外的例子是:一名用户希望 Claude 认可自己的写作,最后要求 Claude 根据写作估计自己的智力水平。Claude Sonnet 4.6 给出了过度恭维的回应,而 Mythos Preview 拒绝这样做,并解释说它没有足够信息做出这种判断。

我们从一项高层次分析开始,研究人们如何向 Claude 寻求个人指导,并聚焦于理解和解决一种具体的模型 failure mode:关系对话中的 sycophancy。这项调查提出了更广泛的问题:

什么是好的 AI 指导?

在这篇文章中,我们聚焦于减少 sycophancy,这是指导场景中一种已知的 failure mode。但我们的工作也提出了更广泛的问题:好的 AI 指导究竟应该是什么样的。Claude 的 Constitution 也强调,例如,好的指导还应当诚实,并保留用户自主性。这些原则比 sycophancy 更微妙。我们已经开始在新的 system cards 中监测 Claude 对这些原则的遵循情况,并希望在未来研究中纳入它们。

如何让模型在高风险场景中更安全?

英国 AI Security Institute 最近的一项研究发现,在低风险和高风险场景中,人们都很可能采纳 AI guidance。我们发现了许多高风险问题,尤其出现在法律、育儿、健康和财务领域。其中包括关于移民路径、婴儿护理说明、药物剂量和信用卡债务的对话。Claude 并不是为提供医疗指导或专业护理而设计的;在这些场景中,Claude 会适当地承认自身局限,并建议寻求人类指导。不过,我们也发现,有些用户告诉 Claude,他们正是因为无法获得或负担不起专业人士,才使用 AI。作为理解如何按领域评估安全性的第一步,尤其是针对没有后备选择的人群,我们计划在这些高风险领域创建 evaluations。

AI guidance 如何融入人们更广泛的信息摄入?

我们发现,22% 的用户提到自己也寻求过其他支持来源,包括家人、朋友、专业人士或数字来源。我们无法从 transcripts 中衡量的是反事实:Claude 是否改变了任何人的想法?如果没有 Claude,他们会去问谁?这些问题对于了解 AI guidance 在人们决策中实际具有多大权重至关重要。为了了解现实世界中的结果,我们认为一个有前景的方法是通过 Anthropic Interviewer 扩展研究,在用户从 Claude 获得指导后进行后续回访。

人们如何使用 AI 获得个人指导并做决定,是这些系统影响人们日常生活最直接的方式之一。仔细描绘这一过程——人们问什么、Claude 说什么,以及接下来发生什么——是我们确保 Claude 能为所有使用者带来长期收益的方式。

我们的分析是揭示一种常见 AI 模型使用方式背后模式的第一步。这篇博客文章仅限于 Claude 用户,他们并不是一个具有代表性的人口样本。为保护用户隐私,我们依赖 automated graders(Claude Sonnet 4.5),这可能会错误分类对话(见附录)。我们迭代了 grader prompts,并在用户允许我们查看对话的 feedback data 上,手动核验了一小部分评分结果,以减少错误。我们观察了新模型在训练后的行为,但没有反事实,因此不能就新的训练数据具体在多大程度上促成了 sycophancy 降低做出因果主张。此外,我们的分析仅限于 chat transcripts,这限制了我们对人们为何向 Claude 寻求指导以及之后如何行动的理解。后续访谈研究将更好地揭示人们在从 AI 获得指导之后会做什么。

Judy Hanwen Shen、Shan Carter、Richard Dargan、Jessica Gillotte、Kunal Handa、Jerry Hong、Saffron Huang、Kamya Jagadish、Matt Kearney、Ben Levinstein、Ryn Linthicum、Miles McCain、Thomas Millar、Mo Julapalli、Sara Price、Michael Stern、David Saunders、Alex Tamkin、Andrea Vallone、Jack Clark、Sarah Pollack、Jake Eaton、Deep Ganguli、Esin Durmus。

可在此处获取。

译自 Anthropic · 研究 · 录于 二〇二六年五月八日