一声棒喝,本不立文字
偏要著録,已是二义

Hugging Face · Daily Papers

Stable-GFlowNet:通过对比式轨迹平衡迈向多样且鲁棒的 LLM 红队测试

Stable-GFlowNet: Toward Diverse and Robust LLM Red-Teaming via Contrastive Trajectory Balance

Minchan Kwon, Sunghyun Baek, Minseo Kim, Jaemyung Yu, Dongyoon Han, Junmo Kim
二〇二六年五月四日 · arXiv:2605.00553 · PDF

Large Language Model(LLM)red-teaming 会主动识别 LLM 的漏洞,是保障安全的关键流程。在 red-teaming 中,找到有效且多样的攻击很重要,但同时实现这两点具有挑战性。执行分布匹配的 Generative Flow Networks(GFNs)是一种有前景的方法,但其训练不稳定和 mode collapse 问题较为突出。尤其是在 red-teaming 中,不稳定的 reward 会加速 mode collapse。

我们提出 Stable-GFN(S-GFN),它取消了 GFN 中对 partition function Z 的估计,从而降低训练不稳定性。S-GFN 通过成对比较避免 Z-estimation,并采用一种稳健的 masking 方法来应对 noisy rewards。此外,我们提出 fluency stabilizer,防止模型陷入生成乱码的局部最优。S-GFN 在保持 GFN 最优策略的同时,提供了更稳定的训练。我们在多种设置下展示了 S-GFN 在攻击性能和多样性方面的显著优势。

译自 Hugging Face · Daily Papers · arXiv:2605.00553 · 录于 二〇二六年五月四日