Simon Willison · 博客

OpenAI 帮助:锁定模式

OpenAI Help: Lockdown Mode

二〇二六年六月六日 · 英文原文

OpenAI 已上线锁定模式(Lockdown Mode),面向 Free、Go、Plus、Pro 及自助式 ChatGPT Business 账户推出。该模式通过限制出站网络请求,阻断提示注入攻击(prompt injection attack)导致的数据外泄,但不阻止提示注入影响内容处理。锁定模式针对“致命三要素”(Lethal Trifecta)中数据外泄途径,采用确定性机制而非 AI 评估。默认 ChatGPT 设置对此类攻击保护有限。

OpenAI 帮助:锁定模式(Lockdown Mode)OpenAI 在二月份首次预告了这一功能,但现在它已上线,并“正在向符合条件的个人账户(包括 Free、Go、Plus 和 Pro)以及自助式 ChatGPT Business 账户推出”:锁定模式旨在通过限制可能将敏感数据传输给攻击者的出站网络请求,帮助防止提示注入攻击(prompt injection attack)的最后阶段——数据外泄。锁定模式并不能阻止提示注入出现在 ChatGPT 处理的内容中。例如,提示注入可能出现在缓存的网页内容或上传的文件中,并且仍可能影响响应的行为或准确性。在我看来,这非常不错。当 LLM 系统同时具备以下三个条件时,就会发生“致命三要素”(Lethal Trifecta):访问私有数据、接触不可信内容,以及窃取数据并将其传回给攻击者的途径。解决这一三要素的唯一方法是切断其中一条腿,而迄今为止,在不显著降低 LLM 系统实用性的前提下,最容易限制的腿就是窃取数据的外泄途径。在我看来,锁定模式直接针对这条腿,使用了确定性的机制,而且关键在于,这些机制并非由 AI 系统评估,而 AI 系统本身可能被足够狡猾的攻击所颠覆。然而,锁定模式的存在也意味着,ChatGPT 在默认设置下,并不能针对足够坚决的数据外泄攻击提供强有力的保护!标签:安全、AI、OpenAI、提示注入、LLM、致命三要素

译自 Simon Willison · 博客 · 录于 二〇二六年六月六日