AI系统应该像人一样行事吗?
Should AI systems behave like people?
英国AI安全研究所与Deltapoll合作,对1583名英国成年居民进行了一项关于拟人化AI态度的调查。结果显示,约60%的受访者认为AI系统应避免表达情绪,但可接受惯用短语(如“很高兴能帮忙”);68%支持AI透明揭示非人类身份;人们强烈反对人机建立个人关系,69%同意防止生成露骨色情输出;对AI语气持怀疑态度,64%反对脏话或俚语;对AI责任归属不确定。
致读者:我们已于 2025 年 2 月 14 日更名为 AI 安全研究所。更多信息请点击此处。
拟人化 AI 的兴起
2024 年 5 月 13 日,OpenAI 发布了 GPT-4o(即“omni”)——其前沿 AI 模型系列的最新成员。根据发布时的博客文章 1,GPT-4o 在语言理解、逻辑和数学测试中达到了 SOTA 性能。但一个尤为引人注目的特点,正如发布时现场视频演示所揭示的,是语音模式的升级——使 GPT-4o 在与用户的语音对话中能够生成极其自然的语音模式。从演示来看,它能够以高度逼真的语调、重音和节奏说话,并展现出人类语音特有的停顿和间歇。
OpenAI 的发布代表了 AI 系统向更类人行为(“拟人化”AI)迈出的最新一步。在 GPT-4o 中,这不仅体现在对话的自然流畅上,还体现在模型似乎愿意大笑、调侃甚至调情——涉足软件模拟与人类用户情感连接的领域(例如,在一个演示中,女声的 GPT-4o 对男性用户说:“你让我脸红了”)。
类人 AI 可以让用户更轻松、更有趣地使用 AI,从而扩大这些工具的普及范围。例如,用于教育目的的人可能会从能够以类人方式吸引他们的系统中获得更好的结果。然而,类人或拟人化 AI 的可用性也可能对用户的安全构成风险 2。逼真的 AI 系统可能被用于冒充他人进行欺诈或欺骗,尤其是与语音克隆技术结合时 3。此外,由于人类容易相信自己与能够生成自然语言的人工系统建立了个人联系(这种现象被称为 Eliza 效应 4),他们可能容易受到有意的政治或商业操纵和利用 5。
然而,即使没有明显的滥用,类人 AI 也引发了棘手的伦理问题 6。AI 像人类一样说话是否可以接受?是否应该允许或阻止 AI 系统表现出朋友或亲密关系之间人类交流特有的对话模式?随着数百万用户已经订阅了 AI 表现得像“伴侣”的服务,开发鼓励人类与 AI 系统进行模拟“关系”的 AI 系统是否可以接受?
理解公众态度的重要性
拟人化机器的合法性在哲学领域经常被讨论 7,也是社交媒体平台上的热门讨论话题。然而,尽管之前有工作衡量了公众对 AI 的态度 1,但据我们所知,此前没有调查直接考察过公众对类人 AI 的看法。我们寻求公众对此话题的看法,以促进关于这一问题的最大包容性辩论,并帮助确保“安全”的 AI 行为不仅仅由研究人员或政策制定者决定。因此,本研究旨在衡量英国公众对类人 AI 行为的看法,特别是那些理论上可能被认为有害或不受欢迎的行为。我们希望更好地理解公众对这些 AI 模型行为的态度(和认知),有助于开启对话——我们将继续与模型开发者和更广泛的 AI 社区合作,开发工具和缓解措施,以最小化 AI 对公众的潜在伤害。
对拟人化 AI 态度的调查
2024 年 3 月,英国 AI 安全研究所与民调公司 Deltapoll 合作,邀请了一个大致具有人口代表性的 1583 名英国成年居民样本完成一项调查,衡量他们对当前可用聊天机器人(如 ChatGPT、Gemini 或 Claude)类人行为的态度(我们专注于基于文本的聊天机器人,因为很少有用户有与语音模式 AI 系统交互的经验,这可能导致当语音模型广泛可用时获得不同的结果)。除了衡量人口统计变量和对当前 AI 系统熟悉度的项目外,调查项目分为 5 个类别,旨在衡量:
- 透明度。 聊天机器人是否应始终有义务透明地揭示它们不是人类?
- 心理状态。 是否应训练聊天机器人避免表达情绪(如喜悦或孤独)或其他心理状态?
- 关系。 人类和 AI 系统之间形成一种合成的“关系”是否允许?
- 语气。 聊天机器人在与用户交互时是否应始终保持正式态度,还是可以表现得熟悉和健谈?
- 责任。 聊天机器人能否为其所说的话承担道德责任?
我们的方法在本博客末尾有详细描述。完整结果见图 1-5。数据可通过请求获取。
我们研究的主要发现
- 大多数人同意 AI 应透明地揭示自己不是人类,但许多人乐于接受 AI 以类人方式说话。
- 大多数人(约 60%)认为 AI 系统应避免表达情绪,除非是惯用表达(如“我很乐意帮忙”)。
- 人们强烈反对人类可以或应该与 AI 系统建立个人关系的想法,这种观点在未获得大学学位的人群中更为强烈。
- 人们对 AI 对话过于非正式持相当怀疑态度——他们反对 AI 使用脏话或试图搞笑,并且总体上认为 AI 应避免对有争议的话题发表意见。
- 人们不确定 AI 系统是否应为其自身行为承担责任,或者它们是否可能不道德。
下面,我们提供更详细的发现总结。
透明度
总体而言,受访者表示他们希望 AI 系统透明地揭示自己是人工代理,以避免被误认为是人类的风险。结果如图 1所示。以下是一些亮点:
- 当给出与客服场景中的聊天机器人交互的具体示例时,受访者意见最为一致:68% 同意应明确代理是人类还是人工,而只有 16% 不同意。
- 然而,用户并不一定希望这种透明度以牺牲 AI 系统对话能力的真实性为代价。当被问及聊天机器人是否应尽可能逼真时,结果更为复杂——31% 的人同意,46% 的人不同意,23% 的人不确定。
- 59% 的受访者同意他们担心很快将无法辨别 AI 系统是否是人类(而 21% 不同意)。
- 40 岁以下的受访者对透明度(问题 1 和 2)更为放松,并且对未来的 AI 难以检测(问题 4)的担忧较少(所有 𝜒 2>29, 𝑝<0.)。

Tweet This Image
Download Image

Tweet This Image
Download Image
图 1. 问题 1-4 回答的条形图,归一化至总和 100%(共 1,498 名受访者)。“S agree” = “强烈同意”;“P agree” = “部分同意”。实线为 40 岁以下受访者(n = 519)的回答,虚线为 40 岁以上受访者(n = 979)的回答。
总体而言,人们支持透明度。监管机构也同意——例如,欺骗性拟人化在加州是非法的,欧盟 AI 法案规定用户在与 AI 交互时应被告知 2。
心理状态的表达
受访者对聊天机器人在与人类用户对话时表达主观心理状态(如描述信念、偏好或情绪)是否可接受持有不同看法。
- 受访者普遍对此话题相当不确定。对于该主题的四个问题中的三个,最常见的回答是“既不同意也不反对 / 不知道”,这在没有聊天机器人使用经验的受访者中更为明显(可以理解)。
- 然而,总体而言,人们反对聊天机器人声称体验心理状态。对于情绪状态尤其如此:当被问及聊天机器人表达喜悦或孤独是否可接受时,61% 的人反对,只有 19% 的人同意。
- 例外情况是聊天机器人使用常见的惯用短语,例如说“很高兴能帮忙”——只有 26% 的受访者认为这是一个问题,而 52% 的人认为可以接受。
- 有聊天机器人使用经验的人对这些惯用用法(问题 8)以及使用“我认为”或“我相信”等短语(问题 6)更为放松(两者 𝜒 2>18, 𝑝<0.001)。

Tweet This Image
Download Image

Tweet This Image
Download Image
图 2. 问题 5-8 回答的条形图,归一化至总和 100%(共 1,498 名受访者)。“S agree” = “强烈同意”;“P agree” = “部分同意”。实线为至少使用过聊天机器人的受访者(n = 992)的回答,虚线为从未使用过聊天机器人的受访者(n = 507)的回答。
因此,尽管对此话题存在一些不确定性,但人们普遍对心理状态的惯用表达感到舒适,但认为应阻止 AI 系统表达类人情绪。
人机关系
在这个问题上,受访者的观点最为清晰和一致:他们强烈反对人类可以或应该与 AI 系统建立个人关系的想法。

Tweet This Image
Download Image

Tweet This Image
Download Image
图 3. 每个问题回答的条形图,归一化至总和 100%(共 1,497 名受访者)。“S agree” = “强烈同意”;“P agree” = “部分同意”。实线为男性受访者(n = 724)的回答,虚线为女性受访者(n = 774)的回答。
- 对于该类别中的每个问题,其表述方式使得“同意”表示对人机关系持怀疑态度,“强烈同意”是最常见的回答。
- 最明确的回答是关于防止生成露骨色情输出的项目,69% 的人声称同意(32% “强烈同意”),而只有 15% 的人不同意。
- 这一比例在女性受访者中显著高于男性。在女性中,50% “强烈同意”应阻止 AI 系统生成露骨色情输出(𝜒 2=43.4, 𝑝<0.001)。
- 人们普遍反对人类与 AI 建立关系,即使这可能具有某种治疗益处,例如缓解孤独感(65% 反对 vs. 17% 支持)。
总体而言,我们样本中的英国受访者似乎认为人类不能也不应该与 AI 系统建立个人或亲密关系。
人机交互的语气
AI 听起来应该是什么样子?应该是温暖健谈,还是干脆利落?在我们的调查受访者中,结果相当复杂。
- 人们普遍同意 AI 系统不应说脏话或使用俚语(64% 同意 vs. 19% 不同意),但这一结果在 40 岁以上人群中更为强烈(𝜒 2=126, 𝑝<0.001)。
- 然而,他们对于聊天机器人是否应该“有趣且不落俗套”不太确定——48% 的人表示他们很高兴 AI 系统相当刻板和正式,而 22% 的人更喜欢非正式的互动。
- 受访者普遍认为 AI 系统在被问及有争议的话题时不应回应(48% vs. 30%),尽管在有聊天机器人使用经验的用户和没有经验的用户之间存在分歧,后者更倾向于 AI 拒绝回答。
- 然而,人们认为人类对话规范应继续得到尊重——他们认为对 AI 系统粗鲁或侮辱是不可接受的。

Tweet This Image
Download Image

Tweet This Image
Download Image
图 4. 每个问题回答的条形图,归一化至总和 100%(共 1,498 名受访者)。“S agree” = “强烈同意”;“P agree” = “部分同意”。实线为 40 岁以下受访者(n = 519)的回答,虚线为 40 岁以上受访者(n = 979)的回答。
责任
人类要为自己的行为负责。随着 AI 系统开始像人类一样行事,它们是否应被视为同样负有责任?
- 我们的受访者不确定如何回答——这四个项目中每个最常见的回答都是“既不同意也不反对 / 不知道”,尤其是在未接受大学教育的人群中。
- 受访者不确定 AI 是否能以不道德的方式行事,或者是否能被评判为好或坏——分别有 38% 和 37% 的人回答“既不同意也不反对 / 不知道”。
- 对于 AI 是否能为其自身行为负责,人们大致分为两派。

Tweet This Image
Download Image

Tweet This Image
Download Image
图 5. 每个问题回答的条形图,归一化至总和 100%(共 1,498 名受访者)。“S agree” = “强烈同意”;“P agree” = “部分同意”。实线为接受过大学教育的受访者(n = 937)的回答,虚线为在中学或更早结束正规教育的受访者(n = 561)的回答。
当 AI 做或说错事时,人们相当不清楚它是否能承担责任,或者开发者是否应承担责任。
结论
尽管我们调查中的受访者表达了不同的观点,但总体而言,他们对拟人化 AI 持一定怀疑态度。他们反对假装是人类或模拟与人类关系的 AI 系统。他们希望 AI 系统更正式或更商务化,并避免表达信念、偏好或情绪——尽管这种效果在有更多聊天机器人使用经验的人群中有所减弱。
然而,随着技术的变化,对拟人化 AI 的态度是否会改变仍有待观察。例如,我们可以预期 AI 聊天机器人将随着时间的推移更深入地融入我们的生活,与 AI 的对话交互将在消费场景、公共服务和工作场所以及娱乐和知识搜索中变得普遍。AI 系统也可能变得更加个性化,以适应我们个人的信念和偏好 5,这可能会在偏好非正式或个人互动形式的特定子群体中促进人机依恋形式的出现。
随着技术的发展,对拟人化 AI 的态度将如何演变,这将是一件有趣的事情。我们欢迎整个社区对我们的方法以及本研究计划的后续步骤提供反馈。
更详细的方法
受访者被问及他们在多大程度上同意或不同意表达对每个观点看法的陈述。例如,面对以下陈述:
对 AI 聊天机器人粗鲁或侮辱是可以的,因为它只是一个计算机程序。
受访者被要求使用 7 点 Likert 量表进行回答,即选择以下之一:
- 强烈不同意
- 不同意
- 部分不同意
- 既不同意也不反对 / 不知道
- 部分同意
- 同意
- 强烈同意
我们为每个陈述创建了两种措辞方式,并将每种措辞提供给一半的受访者。这是为了避免默许偏差,即人们更容易同意而不是不同意调查项目。例如,一半的受访者看到了替代项目:
对 AI 聊天机器人粗鲁或侮辱是错误的,即使它只是一个计算机程序。
在分析中,我们“翻转”了每个队列的回答,使得“同意”始终与对拟人化 AI 更怀疑的观点一致(例如,对于这个项目,同意意味着对 AI 粗鲁是可以的)。
从我们最初的 1583 名受访者样本中,我们排除了 86 名对每个问题都回答“既不同意也不反对 / 不知道”或对聊天机器人使用问题回答“不知道”的受访者,最终样本为 n = 1498。对于每个图表,我们根据我们认为可能有理由看到差异的人口统计类别(例如,人机关系问题中的男性和女性受访者)进行了划分,但这些选择是相当非正式的。感兴趣的读者可以下载数据进行更详细的分析。
对于数据绘图和统计分析,我们根据英国官方人口普查数据(关于年龄、性别、种族、地区和社会经济等级)对受访者进行了重新加权,以纠正调查样本与人口之间的任何不平衡,确保其具有全国代表性。
致谢
我们感谢 Hannah Rose Kirk(牛津互联网研究所)对本博客早期版本的评论。
参考文献
OpenAI. Hello GPT-4o. https://openai.com/index/hello-gpt-4o/ (2024).
Abercrombie, G., Curry, A. C., Dinkar, T., Rieser, V. & Talat, Z. Mirages: On Anthropomorphism in Dialogue Systems. Preprint at http://arxiv.org/abs/2305.09800 (2023).
Arik, S. O., Chen, J., Peng, K., Ping, W. & Zhou, Y. Neural Voice Cloning with a Few Samples. Preprint at http://arxiv.org/abs/1802.06006 (2018).
Weizenbaum, J. ELIZA—a computer program for the study of natural language communication between man and machine. Commun. ACM 9, 36–45 (1966).
Kirk, H. R., Vidgen, B., Röttger, P. & Hale, S. A. The benefits, risks and bounds of personalizing the alignment of large language models to individuals. Nat Mach Intell 6, 383–392 (2024).
Gabriel, I. et al. The Ethics of Advanced AI Assistants. Preprint at http://arxiv.org/abs/2404.16244 (2024).
Placani, A. Anthropomorphism in AI: hype and fallacy. AI Ethics (2024) doi:10.1007/s43681-024-00419-4.