一声棒喝,本不立文字
偏要著録,已是二义

Hugging Face · Daily Papers

FlashRT:面向 Prompt Injection 和 Knowledge Corruption 的计算与内存高效 Red-Teaming

FlashRT: Towards Computationally and Memory Efficient Red-Teaming for Prompt Injection and Knowledge Corruption

Yanting Wang, Chenlong Yin, Ying Chen, Jinyuan Jia
来自 Pennsylvania State University
二〇二六年五月一日 · arXiv:2604.28157 · PDF · Code

长上下文 large language models(LLMs),例如 Gemini-3.1-Pro 和 Qwen-3.5,被广泛用于支持许多真实应用,如 retrieval-augmented generation、自主 agent 和 AI assistants。然而,安全性仍是其大规模部署的主要顾虑,相关威胁包括 prompt injection 和 knowledge corruption。为量化 LLMs 在这些威胁下面临的安全风险,研究社区已经开发出基于 heuristic 和基于 optimization 的 red-teaming 方法。基于 optimization 的方法通常比 heuristic 攻击产生更强的攻击,因此能对 LLM 安全风险提供更严格的评估。然而,这类方法往往资源开销很高,需要大量计算和 GPU 内存,尤其是在长上下文场景中。其高资源消耗特性给研究社区,尤其是学术研究者,系统评估长上下文 LLMs 的安全风险并大规模评估防御策略有效性带来了主要障碍。

在本文中,我们提出 FlashRT,这是首个在长上下文 LLMs 下提升基于 optimization 的 prompt injection 和 knowledge corruption 攻击效率(包括计算与内存)的框架。通过广泛评估,我们发现,与 state-of-the-art 基线 nanoGCG 相比,FlashRT 始终能实现 2x-7x 的加速(例如,将运行时间从一小时缩短到十分钟以内),并将 GPU 内存消耗降低 2x-4x(例如,在 32K token 上下文中将 GPU 内存从 264.1 GB 降至 65.7 GB)。FlashRT 可广泛应用于黑盒 optimization 方法,如 TAP 和 AutoDAN。我们希望 FlashRT 能作为 red-teaming 工具,用于支持对长上下文 LLM 安全性的系统评估。代码可在以下地址获取:https://github.com/Wang-Yanting/FlashRT

译自 Hugging Face · Daily Papers · arXiv:2604.28157 · 录于 二〇二六年五月一日