一声棒喝,本不立文字
偏要著録,已是二义

Hugging Face · Daily Papers

UniVidX:基于 Diffusion Priors 的通用视频生成统一多模态框架

UniVidX: A Unified Multimodal Framework for Versatile Video Generation via Diffusion Priors

Houyuan Chen, Hong Li, Xianghao Kong, Tianrui Zhu, Shaocong Xu, Weiqing Xiao, Yuwei Guo, Chongjie Ye 等 11 位
二〇二六年五月四日 · arXiv:2605.00658 · PDF · Code

近期进展表明,video diffusion models(VDMs)可以被重新用于多种 multimodal graphics 任务。然而,现有方法通常针对每个问题设定训练独立模型,这会固定输入-输出映射,并限制对跨 modality 相关性的建模。我们提出 UniVidX,一个统一的 multimodal 框架,利用 VDM priors 实现灵活的 video generation。UniVidX 将 pixel-aligned 任务表述为共享 multimodal 空间中的 conditional generation,既适应 modality-specific 分布,又保留 backbone 的原生 priors,并在合成过程中促进 cross-modal consistency。

UniVidX 基于三个关键设计。Stochastic Condition Masking(SCM)在训练期间随机将 modalities 划分为干净条件和带噪目标,使模型能够进行 omni-directional conditional generation,而不是依赖固定映射。Decoupled Gated LoRA(DGL)引入每个 modality 对应的 LoRA,并在该 modality 作为生成目标时激活,从而保留 VDM 的强 priors。Cross-Modal Self-Attention(CMSA)在各 modalities 之间共享 keys 和 values,同时保留 modality-specific queries,以促进信息交换和 inter-modal alignment。

我们在两个领域实例化 UniVidX:UniVid-Intrinsic,用于 RGB videos 以及包含 albedo、irradiance 和 normal 的 intrinsic maps;UniVid-Alpha,用于 blended RGB videos 及其组成的 RGBA layers。实验表明,这两个模型在不同任务上都取得了可与 state-of-the-art 方法竞争的性能,并且即使在训练视频少于 1,000 个的情况下,也能稳健泛化到 in-the-wild 场景。项目页面:https://houyuanchen111.github.io/UniVidX.github.io/

译自 Hugging Face · Daily Papers · arXiv:2605.00658 · 录于 二〇二六年五月四日