一声棒喝,本不立文字
偏要著録,已是二义

apple-ml-research

DSO:用于偏见缓解的直接引导优化

DSO: Direct Steering Optimization for Bias Mitigation

二〇二六年五月八日 · 英文原文

内容讨论 Generative models 在决策辅助中的应用,以 VLMs 为例说明其输出会受感知人口统计属性影响,可能产生职业识别偏差;同时指出偏见降低可能伴随性能损失,因此需要可控的 bias mitigation 方法。

Generative models 常被部署为用户做决策,例如 vision-language models(VLMs)识别房间里哪位是医生,以帮助视障人士。然而,VLM 的决策会受到输入中人物被感知到的人口统计属性影响,这可能导致有偏的结果,例如无法将女性识别为医生。此外,当减少偏见会带来性能损失时,用户在平衡偏见缓解与模型整体能力方面可能有不同需求,这凸显了对可控偏见降低方法的需求……

译自 apple-ml-research · 录于 二〇二六年五月八日