Hugging Face · Daily Papers

扭转 TIDE：Diffusion 大语言模型的跨架构蒸馏

Turning the TIDE: Cross-Architecture Distillation for Diffusion Large Language Models

Gongbo Zhang, Wen Wang, Ye Tian, Li Yuan

二〇二六年四月三十日 · arXiv:2604.26951 · PDF

摘要

Diffusion large language models（dLLMs）支持并行解码和双向上下文，但当前 SOTA dLLMs 需要数十亿参数才能达到有竞争力的性能。现有针对 dLLMs 的蒸馏方法可以在单一架构内减少推理步数，但尚未解决跨架构知识迁移问题，即 teacher 与 student 在架构、attention 机制和 tokenizer 上均不相同。

我们提出 TIDE，这是首个用于跨架构 dLLM 蒸馏的框架，由三个模块化组件组成：(1) TIDAL，在训练进程和 diffusion timestep 上联合调节蒸馏强度，以考虑 teacher 在不同噪声水平下的可靠性；(2) CompDemo，通过互补的 mask splitting 丰富 teacher 的上下文，从而改善重度 masking 下的预测；(3) Reverse CALM，一种跨 tokenizer 目标，它反转 chunk 级 likelihood matching，从而得到有界梯度和双端噪声过滤。

我们通过两条异构 pipeline，将 8B dense 和 16B MoE teacher 蒸馏到 0.6B student 中，在八个 benchmark 上平均比 baseline 高出 1.53 分，并在代码生成上取得明显提升：HumanEval 得分达到 48.78，而 AR baseline 为 32.3。