图像生成评估指标IS&FID
Swift Lv6

IS(Inception Score)FID(Fréchet Inception Distance) 是评估生成模型(特别是GAN、Diffusion等)最常见的两个指标

Inception Score (IS)

思想

  • 希望生成的图片清晰且多样
  • 用预训练好的Inception v3 分类网络来评估生成图片的质量。

公式

对生成图片$x$,Inception网络输出类别分布$p(y|x)$。

  • 清晰度:若图片清晰,$p(y|x)$ 应该高度集中(熵低)。
  • 多样性:若生成结果多样,整体类别分布 $p(y) = \int_x p(y|x) dx$ 应该接近均匀(熵高)。

定义 IS:

特点

  • 优点:简单直观,广泛使用。
  • 缺点

    1. 依赖 Inception v3 分类器,不一定适用于非 ImageNet 数据集。
    2. 只看类别分布,不直接衡量“真实分布的接近度”。

Fréchet Inception Distance (FID)

思想

  • 用统计方式比较真实图片分布生成图片分布的接近程度。
  • 在Inception v3特征空间里,把数据分布近似成高斯分布,然后计算两者的Fréchet 距离(Wasserstein-2 距离)。

公式

设真实图片特征的分布为 $\mathcal{N}(\mu_r, \Sigma_r)$,生成图片特征的分布为$\mathcal{N}(\mu_g, \Sigma_g)$。
FID 定义为:

特点

  • 优点

    1. 能综合反映图像的质量和多样性。
    2. 与人类感知一致性更高。
    3. 可以比较不同数据集。
  • 缺点

    1. 特征分布假设为高斯,近似可能不准。
    2. 计算时需要足够样本,否则估计不稳定。

对比总结

指标 思想 优点 缺点
IS 用 KL 散度衡量单图置信度与整体多样性 简单、计算快 依赖 Inception,不能直接衡量与真实分布的差距
FID 在特征空间拟合高斯,计算两分布差异 更符合人类感知,能比较生成与真实数据 需要更多样本,假设近似可能偏差

👉 直观理解:

  • IS 高 → 图像清晰且类别多样
  • FID 低 → 生成分布接近真实分布
Powered by Hexo & Theme Keep
This site is deployed on
Unique Visitor Page View