Diffusion Templates:用于可控 Diffusion 的统一插件框架
Diffusion Templates: A Unified Plugin Framework for Controllable Diffusion
可控 diffusion 方法显著扩展了 diffusion models 的实际用途,但它们通常被开发为彼此孤立、依赖特定 backbone 的系统,在训练 pipeline、参数格式和运行时 hook 上互不兼容。这种碎片化使得跨任务复用基础设施、跨 backbone 迁移能力,或在单一生成 pipeline 中组合多种控制变得困难。
我们提出 Diffusion Templates,这是一个统一且开放的 plugin 框架,将 base-model 推理与可控能力注入解耦。该框架围绕三个组件组织:Template models,将任意任务特定输入映射到中间能力表示;Template cache,作为能力注入的标准化接口;以及 Template pipeline,用于加载、合并并将一个或多个 Template caches 注入 base diffusion 运行时。由于该接口是在系统层面定义的,而不是绑定到某种特定控制架构,因此 KV-Cache 和 LoRA 等异构能力载体可以在同一抽象下得到支持。
基于这一设计,我们构建了一个多样化的 model zoo,覆盖结构控制、亮度调整、颜色调整、图像编辑、超分辨率、清晰度增强、审美对齐、内容参考、局部 inpainting 和年龄控制。这些案例研究表明,Diffusion Templates 能够统一广泛的可控生成任务,同时在快速演进的 diffusion backbones 之间保持模块化、可组合性和实用的可扩展性。所有资源都将 open sourced,包括代码、模型和数据集。