Hugging Face · Daily Papers

微调后的安全漂移：来自高风险领域的证据

Safety Drift After Fine-Tuning: Evidence from High-Stakes Domains

Emaan Bilal Khan, Amy Winecoff, Miranda Bogen, Dylan Hadfield-Menell

二〇二六年五月八日 · arXiv:2604.24902 · PDF

摘要

Foundation models（基础模型）通常会针对特定领域进行 fine-tune（微调）以投入使用，但安全评估通常只在 base model（基座模型）上进行，这隐含地假设安全属性会在下游适配过程中保持不变。我们通过分析 100 个模型的安全行为来检验这一假设，其中包括医疗和法律领域中被广泛部署的 fine-tune 模型，以及对开放 foundation models 进行的受控适配及其对应的 base models。

在通用和领域特定的 safety benchmarks 上，我们发现，良性的 fine-tuning 会导致测得的安全性出现幅度较大、差异显著且常常相互矛盾的变化：模型经常在某些评测工具上有所提升，却在另一些工具上退化，不同评估之间存在显著分歧。

这些结果表明，安全行为在常规下游适配过程中并不稳定，这对以 base-model evaluations 为中心的治理和部署实践提出了关键问题。如果不在与部署相关的情境中对 fine-tuned models 进行明确的重新评估，这类方法就不足以充分管理下游风险，会忽视实际的伤害来源——这些失效在高风险场景中尤其后果重大，并对当前的问责范式构成挑战。