一声棒喝,本不立文字
偏要著録,已是二义

Hugging Face · Daily Papers

用于视觉生成的表征 Fréchet Loss

Representation Fréchet Loss for Visual Generation

Jiawei Yang, Zhengyang Geng, Xuan Ju, Yonglong Tian, Yue Wang
二〇二六年五月一日 · arXiv:2604.28190 · PDF · Code

我们证明,长期以来被认为不适合作为训练目标的 Fréchet Distance(FD),实际上可以在 representation space 中被有效优化。我们的思路很简单:将用于 FD 估计的 population size(例如 50k)与用于梯度计算的 batch size(例如 1024)解耦。我们将这种方法称为 FD-loss。

优化 FD-loss 带来了若干意外发现。首先,在不同 representation space 中使用 FD-loss 对 base generator 进行 post-training,能够稳定提升视觉质量。在 Inception feature space 下,一个 one-step generator 在 ImageNet 256x256 上达到 0.72 FID。其次,同一个 FD-loss 可以在不使用 teacher distillation、adversarial training 或 per-sample targets 的情况下,将 multi-step generators 改造为性能较强的 one-step generators。第三,FID 可能会错误排序视觉质量:现代 representations 能够生成更好的样本,即便其 Inception FID 更差。

这促使我们提出 FDr^k,一种 multi-representation metric。我们希望这项工作能推动进一步探索多样化 representation spaces 中的 distributional distances,将其同时作为生成模型的训练目标和评估指标。

译自 Hugging Face · Daily Papers · arXiv:2604.28190 · 录于 二〇二六年五月一日