Hugging Face · Daily Papers
微调后的安全漂移:来自高风险领域的证据
Safety Drift After Fine-Tuning: Evidence from High-Stakes Domains
摘要
Foundation models(基础模型)通常会针对特定领域进行 fine-tune(微调)以投入使用,但安全评估通常只在 base model(基座模型)上进行,这隐含地假设安全属性会在下游适配过程中保持不变。我们通过分析 100 个模型的安全行为来检验这一假设,其中包括医疗和法律领域中被广泛部署的 fine-tune 模型,以及对开放 foundation models 进行的受控适配及其对应的 base models。
在通用和领域特定的 safety benchmarks 上,我们发现,良性的 fine-tuning 会导致测得的安全性出现幅度较大、差异显著且常常相互矛盾的变化:模型经常在某些评测工具上有所提升,却在另一些工具上退化,不同评估之间存在显著分歧。
这些结果表明,安全行为在常规下游适配过程中并不稳定,这对以 base-model evaluations 为中心的治理和部署实践提出了关键问题。如果不在与部署相关的情境中对 fine-tuned models 进行明确的重新评估,这类方法就不足以充分管理下游风险,会忽视实际的伤害来源——这些失效在高风险场景中尤其后果重大,并对当前的问责范式构成挑战。