apple-ml-research

DSO：用于偏见缓解的直接引导优化

DSO: Direct Steering Optimization for Bias Mitigation

二〇二六年五月八日 · 英文原文

摘要

内容讨论 Generative models 在决策辅助中的应用，以 VLMs 为例说明其输出会受感知人口统计属性影响，可能产生职业识别偏差；同时指出偏见降低可能伴随性能损失，因此需要可控的 bias mitigation 方法。

Generative models 常被部署为用户做决策，例如 vision-language models（VLMs）识别房间里哪位是医生，以帮助视障人士。然而，VLM 的决策会受到输入中人物被感知到的人口统计属性影响，这可能导致有偏的结果，例如无法将女性识别为医生。此外，当减少偏见会带来性能损失时，用户在平衡偏见缓解与模型整体能力方面可能有不同需求，这凸显了对可控偏见降低方法的需求……

译自 apple-ml-research · 录于二〇二六年五月八日