UK AI Security Institute

AI系统应该像人一样行事吗?

Should AI systems behave like people?

二〇二六年五月十六日 · 英文原文

英国AI安全研究所与Deltapoll合作,对1583名英国成年居民进行了一项关于拟人化AI态度的调查。结果显示,约60%的受访者认为AI系统应避免表达情绪,但可接受惯用短语(如“很高兴能帮忙”);68%支持AI透明揭示非人类身份;人们强烈反对人机建立个人关系,69%同意防止生成露骨色情输出;对AI语气持怀疑态度,64%反对脏话或俚语;对AI责任归属不确定。

致读者:我们已于 2025 年 2 月 14 日更名为 AI 安全研究所。更多信息请点击此处

拟人化 AI 的兴起

2024 年 5 月 13 日,OpenAI 发布了 GPT-4o(即“omni”)——其前沿 AI 模型系列的最新成员。根据发布时的博客文章 1,GPT-4o 在语言理解、逻辑和数学测试中达到了 SOTA 性能。但一个尤为引人注目的特点,正如发布时现场视频演示所揭示的,是语音模式的升级——使 GPT-4o 在与用户的语音对话中能够生成极其自然的语音模式。从演示来看,它能够以高度逼真的语调、重音和节奏说话,并展现出人类语音特有的停顿和间歇。

OpenAI 的发布代表了 AI 系统向更类人行为(“拟人化”AI)迈出的最新一步。在 GPT-4o 中,这不仅体现在对话的自然流畅上,还体现在模型似乎愿意大笑、调侃甚至调情——涉足软件模拟与人类用户情感连接的领域(例如,在一个演示中,女声的 GPT-4o 对男性用户说:“你让我脸红了”)。

类人 AI 可以让用户更轻松、更有趣地使用 AI,从而扩大这些工具的普及范围。例如,用于教育目的的人可能会从能够以类人方式吸引他们的系统中获得更好的结果。然而,类人或拟人化 AI 的可用性也可能对用户的安全构成风险 2。逼真的 AI 系统可能被用于冒充他人进行欺诈或欺骗,尤其是与语音克隆技术结合时 3。此外,由于人类容易相信自己与能够生成自然语言的人工系统建立了个人联系(这种现象被称为 Eliza 效应 4),他们可能容易受到有意的政治或商业操纵和利用 5。

然而,即使没有明显的滥用,类人 AI 也引发了棘手的伦理问题 6。AI 像人类一样说话是否可以接受?是否应该允许或阻止 AI 系统表现出朋友或亲密关系之间人类交流特有的对话模式?随着数百万用户已经订阅了 AI 表现得像“伴侣”的服务,开发鼓励人类与 AI 系统进行模拟“关系”的 AI 系统是否可以接受?

理解公众态度的重要性

拟人化机器的合法性在哲学领域经常被讨论 7,也是社交媒体平台上的热门讨论话题。然而,尽管之前有工作衡量了公众对 AI 的态度 1,但据我们所知,此前没有调查直接考察过公众对类人 AI 的看法。我们寻求公众对此话题的看法,以促进关于这一问题的最大包容性辩论,并帮助确保“安全”的 AI 行为不仅仅由研究人员或政策制定者决定。因此,本研究旨在衡量英国公众对类人 AI 行为的看法,特别是那些理论上可能被认为有害或不受欢迎的行为。我们希望更好地理解公众对这些 AI 模型行为的态度(和认知),有助于开启对话——我们将继续与模型开发者和更广泛的 AI 社区合作,开发工具和缓解措施,以最小化 AI 对公众的潜在伤害。

对拟人化 AI 态度的调查

2024 年 3 月,英国 AI 安全研究所与民调公司 Deltapoll 合作,邀请了一个大致具有人口代表性的 1583 名英国成年居民样本完成一项调查,衡量他们对当前可用聊天机器人(如 ChatGPT、Gemini 或 Claude)类人行为的态度(我们专注于基于文本的聊天机器人,因为很少有用户有与语音模式 AI 系统交互的经验,这可能导致当语音模型广泛可用时获得不同的结果)。除了衡量人口统计变量和对当前 AI 系统熟悉度的项目外,调查项目分为 5 个类别,旨在衡量:

我们的方法在本博客末尾有详细描述。完整结果见图 1-5。数据可通过请求获取。

我们研究的主要发现

下面,我们提供更详细的发现总结。

透明度

总体而言,受访者表示他们希望 AI 系统透明地揭示自己是人工代理,以避免被误认为是人类的风险。结果如图 1所示。以下是一些亮点:

Image 1

Tweet This Image

Download Image

Image 2

Tweet This Image

Download Image

图 1. 问题 1-4 回答的条形图,归一化至总和 100%(共 1,498 名受访者)。“S agree” = “强烈同意”;“P agree” = “部分同意”。实线为 40 岁以下受访者(n = 519)的回答,虚线为 40 岁以上受访者(n = 979)的回答。

总体而言,人们支持透明度。监管机构也同意——例如,欺骗性拟人化在加州是非法的,欧盟 AI 法案规定用户在与 AI 交互时应被告知 2。

心理状态的表达

受访者对聊天机器人在与人类用户对话时表达主观心理状态(如描述信念、偏好或情绪)是否可接受持有不同看法。

Image 3

Tweet This Image

Download Image

Image 4

Tweet This Image

Download Image

图 2. 问题 5-8 回答的条形图,归一化至总和 100%(共 1,498 名受访者)。“S agree” = “强烈同意”;“P agree” = “部分同意”。实线为至少使用过聊天机器人的受访者(n = 992)的回答,虚线为从未使用过聊天机器人的受访者(n = 507)的回答。

因此,尽管对此话题存在一些不确定性,但人们普遍对心理状态的惯用表达感到舒适,但认为应阻止 AI 系统表达类人情绪。

人机关系

在这个问题上,受访者的观点最为清晰和一致:他们强烈反对人类可以或应该与 AI 系统建立个人关系的想法。

Image 5

Tweet This Image

Download Image

Image 6

Tweet This Image

Download Image

图 3. 每个问题回答的条形图,归一化至总和 100%(共 1,497 名受访者)。“S agree” = “强烈同意”;“P agree” = “部分同意”。实线为男性受访者(n = 724)的回答,虚线为女性受访者(n = 774)的回答。

总体而言,我们样本中的英国受访者似乎认为人类不能也不应该与 AI 系统建立个人或亲密关系。

人机交互的语气

AI 听起来应该是什么样子?应该是温暖健谈,还是干脆利落?在我们的调查受访者中,结果相当复杂。

Image 7

Tweet This Image

Download Image

Image 8

Tweet This Image

Download Image

图 4. 每个问题回答的条形图,归一化至总和 100%(共 1,498 名受访者)。“S agree” = “强烈同意”;“P agree” = “部分同意”。实线为 40 岁以下受访者(n = 519)的回答,虚线为 40 岁以上受访者(n = 979)的回答。

责任

人类要为自己的行为负责。随着 AI 系统开始像人类一样行事,它们是否应被视为同样负有责任?

Image 9

Tweet This Image

Download Image

Image 10

Tweet This Image

Download Image

图 5. 每个问题回答的条形图,归一化至总和 100%(共 1,498 名受访者)。“S agree” = “强烈同意”;“P agree” = “部分同意”。实线为接受过大学教育的受访者(n = 937)的回答,虚线为在中学或更早结束正规教育的受访者(n = 561)的回答。

当 AI 做或说错事时,人们相当不清楚它是否能承担责任,或者开发者是否应承担责任。

结论

尽管我们调查中的受访者表达了不同的观点,但总体而言,他们对拟人化 AI 持一定怀疑态度。他们反对假装是人类或模拟与人类关系的 AI 系统。他们希望 AI 系统更正式或更商务化,并避免表达信念、偏好或情绪——尽管这种效果在有更多聊天机器人使用经验的人群中有所减弱。

然而,随着技术的变化,对拟人化 AI 的态度是否会改变仍有待观察。例如,我们可以预期 AI 聊天机器人将随着时间的推移更深入地融入我们的生活,与 AI 的对话交互将在消费场景、公共服务和工作场所以及娱乐和知识搜索中变得普遍。AI 系统也可能变得更加个性化,以适应我们个人的信念和偏好 5,这可能会在偏好非正式或个人互动形式的特定子群体中促进人机依恋形式的出现。

随着技术的发展,对拟人化 AI 的态度将如何演变,这将是一件有趣的事情。我们欢迎整个社区对我们的方法以及本研究计划的后续步骤提供反馈。

更详细的方法

受访者被问及他们在多大程度上同意或不同意表达对每个观点看法的陈述。例如,面对以下陈述:

对 AI 聊天机器人粗鲁或侮辱是可以的,因为它只是一个计算机程序。

受访者被要求使用 7 点 Likert 量表进行回答,即选择以下之一:

我们为每个陈述创建了两种措辞方式,并将每种措辞提供给一半的受访者。这是为了避免默许偏差,即人们更容易同意而不是不同意调查项目。例如,一半的受访者看到了替代项目:

对 AI 聊天机器人粗鲁或侮辱是错误的,即使它只是一个计算机程序。

在分析中,我们“翻转”了每个队列的回答,使得“同意”始终与对拟人化 AI 更怀疑的观点一致(例如,对于这个项目,同意意味着对 AI 粗鲁是可以的)。

从我们最初的 1583 名受访者样本中,我们排除了 86 名对每个问题都回答“既不同意也不反对 / 不知道”或对聊天机器人使用问题回答“不知道”的受访者,最终样本为 n = 1498。对于每个图表,我们根据我们认为可能有理由看到差异的人口统计类别(例如,人机关系问题中的男性和女性受访者)进行了划分,但这些选择是相当非正式的。感兴趣的读者可以下载数据进行更详细的分析。

对于数据绘图和统计分析,我们根据英国官方人口普查数据(关于年龄、性别、种族、地区和社会经济等级)对受访者进行了重新加权,以纠正调查样本与人口之间的任何不平衡,确保其具有全国代表性。

致谢

我们感谢 Hannah Rose Kirk(牛津互联网研究所)对本博客早期版本的评论。

参考文献

  1. OpenAI. Hello GPT-4o. https://openai.com/index/hello-gpt-4o/ (2024).

  2. Abercrombie, G., Curry, A. C., Dinkar, T., Rieser, V. & Talat, Z. Mirages: On Anthropomorphism in Dialogue Systems. Preprint at http://arxiv.org/abs/2305.09800 (2023).

  3. Arik, S. O., Chen, J., Peng, K., Ping, W. & Zhou, Y. Neural Voice Cloning with a Few Samples. Preprint at http://arxiv.org/abs/1802.06006 (2018).

  4. Weizenbaum, J. ELIZA—a computer program for the study of natural language communication between man and machine. Commun. ACM 9, 36–45 (1966).

  5. Kirk, H. R., Vidgen, B., Röttger, P. & Hale, S. A. The benefits, risks and bounds of personalizing the alignment of large language models to individuals. Nat Mach Intell 6, 383–392 (2024).

  6. Gabriel, I. et al. The Ethics of Advanced AI Assistants. Preprint at http://arxiv.org/abs/2404.16244 (2024).

  7. Placani, A. Anthropomorphism in AI: hype and fallacy. AI Ethics (2024) doi:10.1007/s43681-024-00419-4.

译自 UK AI Security Institute · 录于 二〇二六年五月十六日