simon-willison
引用 Anthropic
Quoting Anthropic
摘要
Anthropic 在《人们如何向 Claude 寻求个人指导》中使用自动分类器评估 Claude 的 sycophancy,观察其是否反驳、坚持立场、按价值赞扬并坦率表达。结果显示,整体仅 9% 对话含 sycophantic behavior;spirituality 相关对话为 38%,relationships 相关对话为 25%。
我们使用了一个自动分类器,通过观察 Claude 是否愿意提出反驳、在受到质疑时坚持立场、根据想法的价值给予相称的赞扬,以及不管对方想听什么都坦率表达,来判断 sycophancy(迎合)。在这些情境中,大多数时候 Claude 没有表现出 sycophancy——只有 9% 的对话包含 sycophantic behavior(迎合行为)(图 2)。但有两个领域是例外:在关注 spirituality(灵性)的对话中,我们观察到 38% 出现了 sycophantic behavior;在 relationships(人际关系)相关对话中,这一比例为 25%。— Anthropic,《人们如何向 Claude 寻求个人指导》标签:ai-ethics,anthropic,claude,ai-personality,generative-ai,ai,llms,sycophancy
译自 simon-willison · 录于 二〇二六年五月三日