用于视觉生成的表征 Fréchet Loss
Representation Fréchet Loss for Visual Generation
我们证明,长期以来被认为不适合作为训练目标的 Fréchet Distance(FD),实际上可以在 representation space 中被有效优化。我们的思路很简单:将用于 FD 估计的 population size(例如 50k)与用于梯度计算的 batch size(例如 1024)解耦。我们将这种方法称为 FD-loss。
优化 FD-loss 带来了若干意外发现。首先,在不同 representation space 中使用 FD-loss 对 base generator 进行 post-training,能够稳定提升视觉质量。在 Inception feature space 下,一个 one-step generator 在 ImageNet 256x256 上达到 0.72 FID。其次,同一个 FD-loss 可以在不使用 teacher distillation、adversarial training 或 per-sample targets 的情况下,将 multi-step generators 改造为性能较强的 one-step generators。第三,FID 可能会错误排序视觉质量:现代 representations 能够生成更好的样本,即便其 Inception FID 更差。
这促使我们提出 FDr^k,一种 multi-representation metric。我们希望这项工作能推动进一步探索多样化 representation spaces 中的 distributional distances,将其同时作为生成模型的训练目标和评估指标。