Hugging Face · Daily Papers

FlashRT：面向 Prompt Injection 和 Knowledge Corruption 的计算与内存高效 Red-Teaming

FlashRT: Towards Computationally and Memory Efficient Red-Teaming for Prompt Injection and Knowledge Corruption

Yanting Wang, Chenlong Yin, Ying Chen, Jinyuan Jia

来自 Pennsylvania State University

二〇二六年五月一日 · arXiv:2604.28157 · PDF · Code

摘要

长上下文 large language models（LLMs），例如 Gemini-3.1-Pro 和 Qwen-3.5，被广泛用于支持许多真实应用，如 retrieval-augmented generation、自主 agent 和 AI assistants。然而，安全性仍是其大规模部署的主要顾虑，相关威胁包括 prompt injection 和 knowledge corruption。为量化 LLMs 在这些威胁下面临的安全风险，研究社区已经开发出基于 heuristic 和基于 optimization 的 red-teaming 方法。基于 optimization 的方法通常比 heuristic 攻击产生更强的攻击，因此能对 LLM 安全风险提供更严格的评估。然而，这类方法往往资源开销很高，需要大量计算和 GPU 内存，尤其是在长上下文场景中。其高资源消耗特性给研究社区，尤其是学术研究者，系统评估长上下文 LLMs 的安全风险并大规模评估防御策略有效性带来了主要障碍。

在本文中，我们提出 FlashRT，这是首个在长上下文 LLMs 下提升基于 optimization 的 prompt injection 和 knowledge corruption 攻击效率（包括计算与内存）的框架。通过广泛评估，我们发现，与 state-of-the-art 基线 nanoGCG 相比，FlashRT 始终能实现 2x-7x 的加速（例如，将运行时间从一小时缩短到十分钟以内），并将 GPU 内存消耗降低 2x-4x（例如，在 32K token 上下文中将 GPU 内存从 264.1 GB 降至 65.7 GB）。FlashRT 可广泛应用于黑盒 optimization 方法，如 TAP 和 AutoDAN。我们希望 FlashRT 能作为 red-teaming 工具，用于支持对长上下文 LLM 安全性的系统评估。代码可在以下地址获取：https://github.com/Wang-Yanting/FlashRT