大规模后门数据投毒研究

Examining backdoor data poisoning at scale

二〇二六年五月十五日 · 英文原文

摘要

Anthropic、艾伦·图灵研究所与英国AI安全研究所（AISI）合作发布了迄今最大规模的数据投毒研究。研究在600M至13B参数的四种模型上测试后门攻击，发现仅需低至250份文档即可成功投毒所有模型，所需数量不随模型或数据集规模增加，推翻了此前需投毒一定百分比数据的假设。研究旨在提升对数据投毒风险的认识并激励防御措施。

今天，我们发布了与 Anthropic 和艾伦·图灵研究所（Alan Turing Institute）合作的研究成果，产出了迄今为止规模最大的数据投毒研究。

数据投毒是指个人发布旨在污染 AI 模型训练数据的在线内容，从而可能引发危险行为。它可用于植入后门——即用于降低系统性能甚至让模型执行敏感数据外泄等禁止行为的特定短语。由于语言模型是在海量公开互联网文本上训练的，几乎任何人都可以创建这类内容。

我们在四种不同规模的模型上测试了相同的后门攻击，参数范围从 600M 到 13B。我们发现，只需少量文档（低至 250 份）就能成功“投毒”我们测试的每一个模型的训练数据，而所需数量并未随模型或数据集规模增加而增加。此前的研究曾假设攻击者需要投毒一定_百分比_的数据才能成功，但我们的结果表明情况并非如此。这意味着投毒攻击可能比之前认为的更容易实现。

随着模型能力的提升，必须投入更多工作来防御数据投毒，以确保模型在各行业的安全可信部署。我们公开这项研究是为了提高对这些风险的认识，并激励他人采取防御措施来保护自己的模型。

你可以在 Anthropic 网站上了解更多信息，或阅读完整论文。

我们正在招聘！如果你对引领研究以提升先进 AI 系统的安全性充满热情，请申请成为我们 Safeguards 团队的研究科学家。

译自 UK AI Security Institute · 录于二〇二六年五月十五日