Hugging Face · Daily Papers

用于视觉生成的表征 Fréchet Loss

Representation Fréchet Loss for Visual Generation

Jiawei Yang, Zhengyang Geng, Xuan Ju, Yonglong Tian, Yue Wang

二〇二六年五月一日 · arXiv:2604.28190 · PDF · Code

摘要

我们证明，长期以来被认为不适合作为训练目标的 Fréchet Distance（FD），实际上可以在 representation space 中被有效优化。我们的思路很简单：将用于 FD 估计的 population size（例如 50k）与用于梯度计算的 batch size（例如 1024）解耦。我们将这种方法称为 FD-loss。

优化 FD-loss 带来了若干意外发现。首先，在不同 representation space 中使用 FD-loss 对 base generator 进行 post-training，能够稳定提升视觉质量。在 Inception feature space 下，一个 one-step generator 在 ImageNet 256x256 上达到 0.72 FID。其次，同一个 FD-loss 可以在不使用 teacher distillation、adversarial training 或 per-sample targets 的情况下，将 multi-step generators 改造为性能较强的 one-step generators。第三，FID 可能会错误排序视觉质量：现代 representations 能够生成更好的样本，即便其 Inception FID 更差。

这促使我们提出 FDr^k，一种 multi-representation metric。我们希望这项工作能推动进一步探索多样化 representation spaces 中的 distributional distances，将其同时作为生成模型的训练目标和评估指标。