Hugging Face · Daily Papers

UniVidX：基于 Diffusion Priors 的通用视频生成统一多模态框架

UniVidX: A Unified Multimodal Framework for Versatile Video Generation via Diffusion Priors

Houyuan Chen, Hong Li, Xianghao Kong, Tianrui Zhu, Shaocong Xu, Weiqing Xiao, Yuwei Guo, Chongjie Ye 等 11 位

二〇二六年五月四日 · arXiv:2605.00658 · PDF · Code

摘要

近期进展表明，video diffusion models（VDMs）可以被重新用于多种 multimodal graphics 任务。然而，现有方法通常针对每个问题设定训练独立模型，这会固定输入-输出映射，并限制对跨 modality 相关性的建模。我们提出 UniVidX，一个统一的 multimodal 框架，利用 VDM priors 实现灵活的 video generation。UniVidX 将 pixel-aligned 任务表述为共享 multimodal 空间中的 conditional generation，既适应 modality-specific 分布，又保留 backbone 的原生 priors，并在合成过程中促进 cross-modal consistency。

UniVidX 基于三个关键设计。Stochastic Condition Masking（SCM）在训练期间随机将 modalities 划分为干净条件和带噪目标，使模型能够进行 omni-directional conditional generation，而不是依赖固定映射。Decoupled Gated LoRA（DGL）引入每个 modality 对应的 LoRA，并在该 modality 作为生成目标时激活，从而保留 VDM 的强 priors。Cross-Modal Self-Attention（CMSA）在各 modalities 之间共享 keys 和 values，同时保留 modality-specific queries，以促进信息交换和 inter-modal alignment。

我们在两个领域实例化 UniVidX：UniVid-Intrinsic，用于 RGB videos 以及包含 albedo、irradiance 和 normal 的 intrinsic maps；UniVid-Alpha，用于 blended RGB videos 及其组成的 RGBA layers。实验表明，这两个模型在不同任务上都取得了可与 state-of-the-art 方法竞争的性能，并且即使在训练视频少于 1,000 个的情况下，也能稳健泛化到 in-the-wild 场景。项目页面：https://houyuanchen111.github.io/UniVidX.github.io/