一声棒喝,本不立文字
偏要著録,已是二义

Hugging Face · Daily Papers

Diffusion Templates:用于可控 Diffusion 的统一插件框架

Diffusion Templates: A Unified Plugin Framework for Controllable Diffusion

Zhongjie Duan, Hong Zhang, Yingda Chen
二〇二六年五月八日 · arXiv:2604.24351 · PDF

可控 diffusion 方法显著扩展了 diffusion models 的实际用途,但它们通常被开发为彼此孤立、依赖特定 backbone 的系统,在训练 pipeline、参数格式和运行时 hook 上互不兼容。这种碎片化使得跨任务复用基础设施、跨 backbone 迁移能力,或在单一生成 pipeline 中组合多种控制变得困难。

我们提出 Diffusion Templates,这是一个统一且开放的 plugin 框架,将 base-model 推理与可控能力注入解耦。该框架围绕三个组件组织:Template models,将任意任务特定输入映射到中间能力表示;Template cache,作为能力注入的标准化接口;以及 Template pipeline,用于加载、合并并将一个或多个 Template caches 注入 base diffusion 运行时。由于该接口是在系统层面定义的,而不是绑定到某种特定控制架构,因此 KV-Cache 和 LoRA 等异构能力载体可以在同一抽象下得到支持。

基于这一设计,我们构建了一个多样化的 model zoo,覆盖结构控制、亮度调整、颜色调整、图像编辑、超分辨率、清晰度增强、审美对齐、内容参考、局部 inpainting 和年龄控制。这些案例研究表明,Diffusion Templates 能够统一广泛的可控生成任务,同时在快速演进的 diffusion backbones 之间保持模块化、可组合性和实用的可扩展性。所有资源都将 open sourced,包括代码、模型和数据集。

译自 Hugging Face · Daily Papers · arXiv:2604.24351 · 录于 二〇二六年五月八日