Hugging Face · Daily Papers

在图像编辑中利用基于 Verifier 的强化学习

Leveraging Verifier-Based Reinforcement Learning in Image Editing

Hanzhong Guo, Jie Wu, Jie Liu, Yu Gao, Zilyu Ye, Linxiao Yuan, Xionghui Wang, Yizhou Yu 等 9 位

来自 ByteDance Seed

二〇二六年五月一日 · arXiv:2604.27505 · PDF

摘要

虽然 Reinforcement Learning from Human Feedback（RLHF，人类反馈强化学习）已成为 text-to-image 生成中的关键范式，但其在 image editing 中的应用仍很少被探索。一个核心瓶颈是缺乏适用于所有编辑任务的稳健通用 reward model。现有的编辑 reward model 通常只给出总体评分，而不进行细粒度检查，忽视了不同指令的具体要求，从而导致 reward 存在偏差。为解决这一问题，我们认为关键在于从简单的打分器转向推理式验证器。我们提出 Edit-R1，这是一个框架：先构建基于 chain-of-thought（CoT，思维链）验证器的推理 reward model（RRM），再将其用于下游 image editing。Edit-RRM 会将指令拆解为不同原则，逐项评估编辑后图像是否满足这些原则，并将这些检查汇总为可解释、细粒度的 reward。

为构建这样的 RRM，我们首先采用 supervised fine-tuning（SFT，监督微调）作为“cold-start”，生成 CoT reward trajectories。随后，我们引入 Group Contrastive Preference Optimization（GCPO），这是一种 reinforcement learning 算法，利用人类成对偏好数据来强化我们的 pointwise RRM。在构建 RRM 之后，我们使用 GRPO 结合这一不可微但强大的 reward model 来训练编辑模型。大量实验表明，作为面向编辑任务的专用 reward model，Edit-RRM 超越了 Seed-1.5-VL 和 Seed-1.6-VL 等强大的 VLM，并且我们观察到明确的 scaling trend：性能从 3B 到 7B 参数持续提升。此外，Edit-R1 还为 FLUX.1-kontext 等编辑模型带来了增益，凸显了其在提升 image editing 能力方面的有效性。