在图像编辑中利用基于 Verifier 的强化学习
Leveraging Verifier-Based Reinforcement Learning in Image Editing
虽然 Reinforcement Learning from Human Feedback(RLHF,人类反馈强化学习)已成为 text-to-image 生成中的关键范式,但其在 image editing 中的应用仍很少被探索。一个核心瓶颈是缺乏适用于所有编辑任务的稳健通用 reward model。现有的编辑 reward model 通常只给出总体评分,而不进行细粒度检查,忽视了不同指令的具体要求,从而导致 reward 存在偏差。为解决这一问题,我们认为关键在于从简单的打分器转向推理式验证器。我们提出 Edit-R1,这是一个框架:先构建基于 chain-of-thought(CoT,思维链)验证器的推理 reward model(RRM),再将其用于下游 image editing。Edit-RRM 会将指令拆解为不同原则,逐项评估编辑后图像是否满足这些原则,并将这些检查汇总为可解释、细粒度的 reward。
为构建这样的 RRM,我们首先采用 supervised fine-tuning(SFT,监督微调)作为“cold-start”,生成 CoT reward trajectories。随后,我们引入 Group Contrastive Preference Optimization(GCPO),这是一种 reinforcement learning 算法,利用人类成对偏好数据来强化我们的 pointwise RRM。在构建 RRM 之后,我们使用 GRPO 结合这一不可微但强大的 reward model 来训练编辑模型。大量实验表明,作为面向编辑任务的专用 reward model,Edit-RRM 超越了 Seed-1.5-VL 和 Seed-1.6-VL 等强大的 VLM,并且我们观察到明确的 scaling trend:性能从 3B 到 7B 参数持续提升。此外,Edit-R1 还为 FLUX.1-kontext 等编辑模型带来了增益,凸显了其在提升 image editing 能力方面的有效性。