Hugging Face · Daily Papers

Stable-GFlowNet：通过对比式轨迹平衡迈向多样且鲁棒的 LLM 红队测试

Stable-GFlowNet: Toward Diverse and Robust LLM Red-Teaming via Contrastive Trajectory Balance

Minchan Kwon, Sunghyun Baek, Minseo Kim, Jaemyung Yu, Dongyoon Han, Junmo Kim

二〇二六年五月四日 · arXiv:2605.00553 · PDF

摘要

Large Language Model（LLM）red-teaming 会主动识别 LLM 的漏洞，是保障安全的关键流程。在 red-teaming 中，找到有效且多样的攻击很重要，但同时实现这两点具有挑战性。执行分布匹配的 Generative Flow Networks（GFNs）是一种有前景的方法，但其训练不稳定和 mode collapse 问题较为突出。尤其是在 red-teaming 中，不稳定的 reward 会加速 mode collapse。

我们提出 Stable-GFN（S-GFN），它取消了 GFN 中对 partition function Z 的估计，从而降低训练不稳定性。S-GFN 通过成对比较避免 Z-estimation，并采用一种稳健的 masking 方法来应对 noisy rewards。此外，我们提出 fluency stabilizer，防止模型陷入生成乱码的局部最优。S-GFN 在保持 GFN 最优策略的同时，提供了更稳定的训练。我们在多种设置下展示了 S-GFN 在攻击性能和多样性方面的显著优势。