Bernini

二〇二六年六月六日 · 英文原文

摘要

字节跳动团队提出Bernini，一个结合MLLM语义规划器与DiT渲染器的统一视频生成与编辑框架。该框架支持文生图、图生图、文生视频、视频编辑、参考图引导视频编辑及参考图生视频六类任务。在自建竞技场平台上，Bernini的视频编辑能力达到与领先闭源商业模型相当的第一梯队水平。项目已开源推理代码与模型权重，基于Wan2.2-T2V-A14B与Qwen2.5-VL-7B-Instruct构建，采用Apache 2.0许可。

Chenchen Liu*, Junyi Chen*, Lei Li*, Lu Chi*,§, Mingzhen Sun*, Zhuoying Li*, Yi Fu, Ruoyu Guo, Yiheng Wu, Ge Bai, Zehuan Yuan✉

* 同等贡献 ✉ 通讯作者 § 项目负责人

🎉 新闻

[2026-06-01] 我们开源了 Bernini Renderer（Bernini-R）的推理代码和模型权重。
[2026-05-22] 我们发布了论文 Bernini: Latent Semantic Planning for Video Diffusion。

✨ 亮点

Bernini 是一个统一的视频生成与编辑框架，它将基于 MLLM 的语义规划器与基于 DiT 的渲染器相结合。

在视频编辑方面，Bernini 达到了领先闭源商业模型的第一梯队。以下排行榜来自我们自建的竞技场平台，人工标注员对成对编辑结果进行盲投，投票结果汇总为 Bradley-Terry 分数和成对胜率矩阵。

📦 安装

环境要求

Python 3.11.2。
CUDA GPU — 推荐使用 Hopper GPU（H100/H800/H200），以便使用 FlashAttention-3；其他 CUDA GPU 将回退到 FlashAttention-2 或 PyTorch SDPA。
CUDA toolkit 12.4（与固定的 torch==2.5.1+cu124 匹配；如果要构建 FlashAttention-3，最低需要 12.3+）。
在 requirements.txt 中固定：torch==2.5.1+cu124、diffusers==0.35.2、accelerate==0.34.2、transformers==4.57.3。

参考环境（Bernini-R 在此配置上开发和测试）：

组件	版本
GPU	NVIDIA H100
CUDA	12.4
Python	3.11.2
PyTorch	2.5.1+cu124

安装

git clone https://github.com/bytedance/Bernini.git bernini && cd bernini
pip install -r requirements.txt

可选扩展：

多 GPU 序列并行 需要 Open-VeOmni（Apache-2.0 许可，Python 3.11）。使用 --no-deps 参数，这样 VeOmni 不会拉取不同的 torch 构建版本并覆盖固定的 torch==2.5.1+cu124：pip install --no-deps git+https://github.com/ByteDance-Seed/VeOmni.git@v0.1.10。单 GPU 推理不需要它。
更快的 attention（如果安装了则自动检测；否则使用 PyTorch SDPA）：
- FlashAttention-2 — 通用 CUDA GPU（包括 A100/A800）：pip install flash-attn==2.8.3。
- FlashAttention-3 — 仅限 Hopper（H100/H800/H200，CUDA ≥ 12.3，PyTorch ≥ 2.4）。flash_attn_interface 不在 PyPI 上；需要从 flash-attention 仓库的 hopper/ 目录（标签 v2.8.3）构建：
```
git clone https://github.com/Dao-AILab/flash-attention.git
cd flash-attention && git checkout v2.8.3
cd hopper && MAX_JOBS=$(nproc) python3 setup.py install --user
```

权重

Bernini-R 使用两组权重：

Wan2.2 基础模型 — Hugging Face 上的 Wan-AI/Wan2.2-T2V-A14B-Diffusers。提供 VAE、UMT5 文本编码器、tokenizer 以及 transformer 架构/基础权重。首次运行时自动下载（由 configs/bernini_renderer_wan22/config.json 中的 wan22_base 配置）。
Bernini-R 检查点 — 来自 Hugging Face 的训练好的高噪声/低噪声 transformer 权重（safetensors 格式），通过 --high_noise_ckpt / --low_noise_ckpt 传入。接受本地目录和 Hugging Face 仓库 ID。

使用 huggingface-cli 下载模型：

pip install -U "huggingface_hub"
hf download Wan-AI/Wan2.2-T2V-A14B-Diffusers --local-dir Wan2.2-T2V-A14B-Diffusers
hf download ByteDance/Bernini --local-dir Bernini

🚀 使用

一次运行由一个 case 文件 描述——它是 assets/testcases/ 下的一个小型 JSON 文件，打包了一个任务的路径和输入（task_type、guidance_mode、prompt、源媒体、output）。这样可以将长提示词从命令行中分离出来。每个任务在 assets/testcases/ 下都有一个目录，包含一个或多个 case 文件；格式和附带的 t2i / i2i / t2v / v2v / rv2v /r2v 示例请参见 assets/testcases/。

提示词增强器（推荐）

--use_pe 通过兼容 OpenAI 的端点增强提示词，建议用于最佳生成质量。requirements.txt 已安装 openai SDK；通过环境变量配置端点：

export BERNINI_PE_API_KEY=...      # 或 OPENAI_API_KEY
export BERNINI_PE_BASE_URL=...     # 或 OPENAI_BASE_URL
export BERNINI_PE_MODEL=...        # 支持视觉的聊天模型

按任务类型的示例

除非示例另有说明，推理输出为 480p / 16fps（默认值——--max_image_size 848、--fps 16）。

每个示例运行 assets/testcases/ 中附带的一个 case 文件——将 <hi> / <lo> 替换为你的高/低噪声检查点路径。图像任务（t2i、i2i）在单 GPU 上展示；视频任务通过 torchrun 在 8 个 GPU 上运行，其中 --ulysses N 为每个样本提供 N 路 Ulysses 序列并行，剩余的 world_size / N 个 rank 在任务列表上运行数据并行。两个脚本接受相同的输入，因此任何示例都可以用任一方式运行。

输入也可以直接作为标志传递，而不是使用 --case（--prompt、--task_type、--guidance_mode、--video、--image、--images、--output）；生成参数（--seed、--num_frames 等）始终是命令行标志。

文生图（t2i）— 单 GPU；生成一帧，因此传递 --num_frames 1

python infer_single_gpu.py --high_noise_ckpt <hi> --low_noise_ckpt <lo> \
    --case assets/testcases/t2i/t2i.json --num_frames 1

图像编辑（i2i）— 单 GPU；生成一帧，因此传递 --num_frames 1

python infer_single_gpu.py --high_noise_ckpt <hi> --low_noise_ckpt <lo> \
    --case assets/testcases/i2i/i2i.json --num_frames 1

文生视频（t2v）

torchrun --nproc-per-node 8 infer_multi_gpu.py \
    --high_noise_ckpt <hi> --low_noise_ckpt <lo> --ulysses 8 \
    --case assets/testcases/t2v/t2v.json

视频编辑（v2v / mv2v）— 提供了两个 case 文件。

对于主要主体保持正常运动的编辑（case 1 在场景中添加一个雪人），v2v 任务类型就足够了：

torchrun --nproc-per-node 8 infer_multi_gpu.py \
    --high_noise_ckpt <hi> --low_noise_ckpt <lo> --ulysses 8 \
    --case assets/testcases/v2v/v2v_case1.json

对于需要改变主体运动的编辑（case 2 让人蹲下），mv2v 任务类型效果更好：

torchrun --nproc-per-node 8 infer_multi_gpu.py \
    --high_noise_ckpt <hi> --low_noise_ckpt <lo> --ulysses 8 \
    --case assets/testcases/v2v/v2v_case2.json

参考 + 视频编辑（rv2v）— 提供了两个 case 文件。

Case 1 是参考图像引导的视频编辑——将源视频中的服装替换为参考图像中的服装：

torchrun --nproc-per-node 8 infer_multi_gpu.py \
    --high_noise_ckpt <hi> --low_noise_ckpt <lo> --ulysses 8 \
    --case assets/testcases/rv2v/rv2v_case1.json

Case 2 是一个视频插入示例——将内容插入到源视频中。它以 720p / 24fps 运行，以便更清晰地显示插入结果：

torchrun --nproc-per-node 8 infer_multi_gpu.py \
    --high_noise_ckpt <hi> --low_noise_ckpt <lo> --ulysses 8 \
    --case assets/testcases/rv2v/rv2v_case2.json \
    --num_frames 121 --fps 24 --max_image_size 1280

参考图生视频（r2v）— 从一张或多张参考图像驱动视频

torchrun --nproc-per-node 8 infer_multi_gpu.py \
    --high_noise_ckpt <hi> --low_noise_ckpt <lo> --ulysses 8 \
    --case assets/testcases/r2v/r2v.json

查看 python infer_single_gpu.py --help 获取完整参数列表。

Gradio 演示

gradio_demo.py 通过 Gradio UI 暴露相同的流水线：任务类型下拉菜单自动填充 guidance_mode（仍可用户编辑），上传的媒体被路由到匹配的插槽，结果内联渲染。

# 单 GPU
python gradio_demo.py --high_noise_ckpt <hi> --low_noise_ckpt <lo> --port 7860

# 8 GPU，8 路 Ulysses 序列并行
torchrun --nproc-per-node 8 gradio_demo.py --ulysses 8 \
    --high_noise_ckpt <hi> --low_noise_ckpt <lo> --port 7860 --share

添加 --use_pe（并 export OPENAI_API_KEY=... / BERNINI_PE_API_KEY=...）以启用 GPT 提示词增强；UI 中的复选框是在此标志之上的每个请求开关。

📑 引用

如果您在研究中使用 Bernini，请引用：

@article{bernini,
  title   = {Bernini: Latent Semantic Planning for Video Diffusion},
  author  = {Chenchen Liu and Junyi Chen and Lei Li and Lu Chi and Mingzhen Sun and Zhuoying Li and Yi Fu and Ruoyu Guo and Yiheng Wu and Ge Bai and Zehuan Yuan},
  journal = {arXiv preprint arXiv:2605.22344},
  year    = {2026}
}

🙏 致谢

Bernini 建立在多个优秀的开源项目之上：

我们感谢这些项目的作者和社区所做的贡献。

📄 许可

Apache License 2.0。参见 LICENSE。

译自 ByteDance · HF · 字节跳动 · 录于二〇二六年六月六日