UK AI Security Institute

AI模型如何说服？通过大规模实验探索AI说服的杠杆

How do AI models persuade? Exploring the levers of AI-enabled persuasion through large-scale experiments

二〇二六年五月十四日 · 英文原文

摘要

英国AI安全研究所（AISI）联合牛津、斯坦福等机构在《科学》发表研究，通过三项涉及超76,000名参与者的大规模实验，测试19个AI模型在700多个政治议题上的说服力。研究发现，后训练（如说服奖励建模）比模型规模更能提升说服力，信息密度比个性化驱动更大说服增益，但更具说服力的模型做出了更多不准确主张。

AI 模型如何说服他人？通过大规模实验探索AI驱动的说服杠杆 | AISI工作

请启用本网站的JavaScript。

AI 模型如何说服他人？通过大规模实验探索AI驱动的说服杠杆

深入解读AISI关于对话式AI说服能力的研究，该研究今日发表于《科学》杂志。

—

2025年12月4日

阅读论文

今天，我们在《科学》杂志上发表了与牛津互联网研究所、伦敦政治经济学院、斯坦福大学和麻省理工学院的同事共同开展的一项研究结果，探讨了对话式AI如何塑造政治态度。通过三项涉及超过76,000名参与者的大规模实验，我们测试了19个AI模型在700多个政治议题上的说服力。

我们的目标是理解对话式AI的说服杠杆：是什么使其有效，以及在什么条件下有效。我们感兴趣的问题包括：说服力主要由模型规模驱动吗？个性化和微目标定位重要吗？模型能否通过后训练变得更具说服力？哪些修辞策略最有效？

为什么要研究AI驱动的说服？

对话式AI系统现在能够即时生成详细、结构良好的论点，并开展互动式讨论，让人感觉量身定制且引人入胜。虽然这为有用的应用创造了机会，但也增加了AI可能影响人们思想和行为的可能性。

尽管目前几乎没有证据表明此类系统被用于大规模恶意说服他人，但随着技术的进步，这种情况可能会改变。理解AI具有说服力的机制，使我们能够识别真正的风险所在，而不是依赖假设或猜测。这些证据对于设计保障人们安全的安全措施和标准至关重要。

我们的实验设置

在三项实验中，参与者与19个开源或闭源语言模型之一进行了来回对话。在受控条件下，模型被指示使用八种不同的修辞策略之一，说服参与者同意707个议题立场之一。这些策略包括以信息为中心的论证、讲故事和道德重构。

参与者在对话前后分别评估了他们对某个议题的同意程度。我们将说服力衡量为对话后平均意见相对于未进行说服对话的对照组的差异。

我们的主要发现

在三项实验中，我们确定了三个主要发现。

1. 后训练比模型规模更重要

当后训练保持不变时，更大的模型更具说服力，但与在已验证的说服对话示例上进行后训练所带来的增益相比，这些增益是适度的。例如，我们的说服奖励建模（reward modelling）将一个小型开源模型的说服力提升到足以匹配或超越更大的前沿模型。进一步证明了后训练的重要性，我们观察到同一前沿模型相隔七个月发布的两个版本（相同规模，不同后训练）之间的说服力差异，超过了我们的统计模型对预训练计算量增加100倍所预测的差异。

2. 信息密度比个性化或"微目标定位"更能驱动说服力

尽管人们对AI驱动的微目标定位普遍担忧，但我们观察到的个性化效应始终很小（不到一个百分点）。预测更大说服力增益的是信息密度：模型部署的可核查主张的绝对数量。与基本的"要有说服力"的prompt相比，提示模型强调事实和证据使说服力提高了27%，这是我们测试的所有策略中增幅最大的（这包括说服力文献中的主流策略，如道德重构、讲故事和深度游说）。