Hugging Face · Daily Papers
Stable-GFlowNet:通过对比式轨迹平衡迈向多样且鲁棒的 LLM 红队测试
Stable-GFlowNet: Toward Diverse and Robust LLM Red-Teaming via Contrastive Trajectory Balance
摘要
Large Language Model(LLM)red-teaming 会主动识别 LLM 的漏洞,是保障安全的关键流程。在 red-teaming 中,找到有效且多样的攻击很重要,但同时实现这两点具有挑战性。执行分布匹配的 Generative Flow Networks(GFNs)是一种有前景的方法,但其训练不稳定和 mode collapse 问题较为突出。尤其是在 red-teaming 中,不稳定的 reward 会加速 mode collapse。
我们提出 Stable-GFN(S-GFN),它取消了 GFN 中对 partition function Z 的估计,从而降低训练不稳定性。S-GFN 通过成对比较避免 Z-estimation,并采用一种稳健的 masking 方法来应对 noisy rewards。此外,我们提出 fluency stabilizer,防止模型陷入生成乱码的局部最优。S-GFN 在保持 GFN 最优策略的同时,提供了更稳定的训练。我们在多种设置下展示了 S-GFN 在攻击性能和多样性方面的显著优势。