vLLM · 官方博客

VeRL-Omni 发布:扩散与全模态模型的简易、快速、稳定 RL 训练

Announcing VeRL-Omni: Easy, Fast, and Stable RL Training for Diffusion and Omni-Modality Models

二〇二六年五月十八日 · 英文原文

VeRL-Omni 是一个基于 verl 和 vllm-omni 构建的多模态生成模型通用强化学习(RL)后训练框架,支持 diffusion 和全模态模型(如 Qwen-Image、BAGEL、Qwen3-Omni-Thinker)的 RL 训练。其关键特性包括高效的多模态 rollout(集成 vLLM-Omni)、灵活的奖励引擎(支持基于规则和 VLM-as-judge 的模型奖励)、模块化训练后端(DiffusersFSDP/Megatron/VeOmni)以及 NVIDIA GPU 和 Ascend NPU 硬件兼容性。在 4×H200 GPU 上,Qwen-Image 全模型微调达到 0.510 图像/GPU/秒,异步奖励将每步时间减少约 14%。

我们很高兴地宣布 VeRL-Omni 的预发布版本,这是一个基于 verlvllm-omni 构建的、专注于多模态生成模型的通用强化学习(RL)后训练框架。

Image 1

为什么需要 VeRL-Omni?

RL 已成为将大型生成模型与人类偏好及下游任务奖励对齐的强大方法。虽然 LLM RL 技术栈在过去一年中快速发展,但多模态生成 RL(涵盖用于图像/视频/音频理解与生成的 diffusion 和全模态模型)面临着关键需求:

关键特性

算法和模型支持

模型 架构 模态 算法 状态
Qwen-Image DiT 文本 → 图像 FlowGRPO, MixGRPO, GRPO-Guard 已发布
BAGEL 统一理解 + 生成 文本 + 图像 FlowGRPO PR 就绪
Qwen3-Omni-Thinker AR 文本 / 图像 / 视频 / 音频 GSPO PR 就绪
Wan2.2 DiT 文本 → 视频 DanceGRPO 进行中
SD3.5 DiT 文本 → 图像 DPO 进行中
HunyuanImage-3.0 统一理解 + 生成 文本 + 图像 MixGRPO, SRPO 计划中

快速开始

安装

详情请查看我们的安装文档

训练 diffusion 模型

请查看我们的示例目录,获取用于启动图像/音频/视频理解和生成任务的不同 RL 算法训练器的具体脚本。您可以通过 wandb 跟踪训练性能和结果。

演示:Qwen-Image FlowGRPO 后训练

flowgrpo 示例中,我们使用 OCR 奖励任务训练 Qwen-Image。奖励模型是 Qwen3-VL-8B-Instruct,通过读取渲染文本并与数据集真实值进行比较来对生成的图像进行评分。

算法回顾

Image 2: FlowGRPO 算法

FlowGRPO 算法

FlowGRPO 演示

FlowGRPO 是一种用于 flow-matching 模型的在线策略方法。它采用多步 SDE 采样和 diffusion 策略模型来实现有效的 RL 探索,并使用基于模型的奖励来评估生成质量。训练工作流主要由四个关键阶段组成:

  1. Rollout 生成: diffusion 策略模型生成样本 rollout,收集对数概率和生成图像的轨迹。
  2. 奖励模型评分: 奖励模型对每个生成的样本进行评分,从而可以计算轨迹优势。
  3. 策略优化: 使用 FlowGRPO CLIP 风格损失更新策略,利用计算出的优势优化以获得更高奖励。
  4. 权重同步: 定期将训练器中的最新策略权重同步到 rollout 工作节点,确保生成的样本反映最新的策略。

LoRA 微调

在 NVIDIA H800 GPU 上的训练吞吐量如下。

模式 # GPU Actor Rollout 异步奖励 吞吐量 (图像/GPU/秒) 每步时间 (秒)
FlowGRPO 共置训练 4 4 4 0 (同步) 0.305 420
FlowGRPO 带异步奖励 5 4 4 1 (异步) 0.280 360

将奖励模型移至其专用 GPU,通过将奖励评估与策略训练重叠,将每步的挂钟时间减少了 ~14%

全模型微调

我们还在 4 × NVIDIA H200 GPU 上验证了非 CFG 全模型 Qwen-Image OCR 训练,在约 250 秒/步时达到了 0.510 图像/GPU/秒

如下所示,在 120 个训练步骤中,生成图像的文本渲染质量得到了大幅提升。

提示 训练步骤 0 训练步骤 120
茂密森林中的木质步道标记,木头上刻有 "Hidden Trail",周围环绕着苔藓和树叶。 Image 3: Hidden Trail — 步骤 0 Hidden Trail — 步骤 0 Image 4: Hidden Trail — 步骤 120 Hidden Trail — 步骤 120
生日贺卡内部,用草书写着 "Make A Wish",周围环绕着闪烁的蜡烛和五彩纸屑。 Image 5: Make A Wish — 步骤 0 Make A Wish — 步骤 0 Image 6: Make A Wish — 步骤 120 Make A Wish — 步骤 120

以下是来自我们参考运行的奖励和训练曲线。在训练过程中,评判奖励和验证奖励都稳定收敛。

有关训练指标的详细概述,请参阅我们的训练指标文档。

未来路线图

VeRL-Omni 正在积极发展中,目前处于预发布阶段,拥有稳定的核心 diffusion RL 技术栈。我们的路线图侧重于扩展模型和算法支持,并推动高效多模态 RL 训练的边界。

这只是 diffusion 和全模态 RL 后训练的开始。我们正在积极开发对更多架构和算法的支持,并邀请社区共同塑造 VeRL-Omni 的未来。

让我们一起构建全模态 RL 的未来!

译自 vLLM · 官方博客 · 录于 二〇二六年五月十八日