GAN量化评估方法——IS（Inception Score）和FID（Frechet Inception Distance score）

2020-08-19 13:27175480编辑收藏

　　生成模型产生的是高维的复杂结构数据，它们不同于判别模型，很难用简单的指标来评估模型的好坏。下面介绍两种当前比较流行的评估生成模型的指标（仅判别图像）：IS（Inception Score）和FID（Frechet Inception Distance score）。

1 IS#

　　IS基于Google的预训练网络Inception Net-V3。Inception Net-V3是精心设计的卷积网络模型，输入为图片张量，输出为1000维向量。输出向量的每个维度的值对应图片属于某类的概率，因此整个向量可以看做一个概率分布。下面讲解IS的思路和推导过程。

1.1 定义#

　　IS考虑以下两个方面评估生成器的质量：

　　1、对于单一的生成图像，Inception输出的概率分布熵值应该尽量小。越小说明生成图像越有可能属于某个类别，图像质量高。

　　2、对于生成器生成的一批图像而言，Inception输出的平均概率分布熵值应该尽量大。也就是说，因为生成器应该保证生成图像的多样性，因此一批图像在Inception的输出应该尽量平均地“遍历”所有1000维标签。

　　1定义如下：

$\begin{equation} \begin{aligned} &E_{x\sim p_G}(H(p(y|x)))\\ =&\sum\limits_{x\in G}P(x)H(p(y|x))\\ =&\sum\limits_{x\in G}P(x)\sum\limits_{i=1}^{1000}P(y_i|x)\log \frac{1}{P(y_i|x)}\\ \end{aligned} \end{equation}$

　　即先求批量输出分布的熵值再求熵的均值。其中 $p(y|x)$ 表示Inception输入生成图像 $x$ 时的输出分布， $P(x)$ 表示生成器 $G$ 生成图像 $x$ 的概率， $P(y_i|x)$ 表示Inception预测 $x$ 为第 $i$ 类的概率。

　　2定义如下：

$\begin{equation} \begin{aligned} &H(E_{x\sim p_G}(p(y|x)))\\ =&H\left(\sum\limits_{x\in G} P(x)P(y|x)\right)\\ =&H( p(y))\\ =&\sum\limits_{i=1}^{1000} P(y_i)\log \frac{1}{P(y_i)}\\ =&\sum\limits_{i=1}^{1000} \sum\limits_{x\in G}P(y_i,x)\log \frac{1}{P(y_i)}\\ =& \sum\limits_{x\in G}P(x)\sum\limits_{i=1}^{1000}P(y_i|x)\log \frac{1}{P(y_i)}\\ \end{aligned} \end{equation}$

　　即先求批量输出分布的均值再求均值的熵。其中 $p(y)$ 表示 $G$ 生成的图片在Inception输出类别的平均分布， $P(y_i)$ 表示Inception判断 $G$ 生成的图片属于 $i$ 类的概率。

　　为了将1和2放在一起作为一个整体，取 $(1)$ 式为负，这样这两个指标的目标就一致了，都是越大越好。然后将它们加起来，得到：

$\begin{equation} \begin{aligned} &\sum\limits_{x\in G}P(x)\sum\limits_{i=1}^{1000}P(y_i|x)\log \frac{P(y_i|x)}{P(y_i)}\\ =&E_{x\sim p_G}KL(p(y|x)||p(y)) \end{aligned} \end{equation}$

　　其中 $KL(p(y|x)||p(y))$ 是这两个分布的KL散度（相对熵）。最后再加上指数，得到最终的IS：

$\begin{equation} \begin{aligned} \text{IS}=\exp E_{x\sim p_G}KL(p(y|x)||p(y)) \end{aligned} \end{equation}$

　　根据定义，IS值越大，生成图像的质量越高。

1.2 具体应用#

　　假设生成器 $G$ 生成 $n$ 张图片 $\{x_1,x_2,...,x_n\}$ ，首先计算 $P(y_i)$ ：

$\begin{equation} \begin{aligned} P(y_i) = \frac{1}{n}\sum\limits_{j=1}^nP(y_i|x_j) \end{aligned} \end{equation}$

　　然后代入公式 $(4)$ 计算IS：

$\begin{equation} \begin{aligned} \text{IS}(G) &=\exp E_{x\sim p_G}KL(p(y|x)||p(y)) \\ &=\exp\left(\sum\limits_{x\in G}P(x)\sum\limits_{i=1}^{1000}P(y_i|x)\log \frac{P(y_i|x)}{P(y_i)}\right)\\ &=\exp\left(\frac{1}{n}\sum\limits_{j=1}^n\sum\limits_{i=1}^{1000}P(y_i|x_j)\log \frac{P(y_i|x_j)}{P(y_i)}\right) \end{aligned} \end{equation}$

2 FID#

　　FID分数是在IS基础上的改进，同样也是基于Inception Net-V3。FID与IS的不同之处在于，IS是直接对生成图像进行评估，指标值越大越好；而FID分数则是通过对比生成图像与真实图像来产生评估分数，计算一个“距离值”，指标值越小越好。以下是定义。

2.1 定义#

　　FID并不使用Inception Net-V3的原本输出作为依据，它删除模型原本的输出层，于是输出层变为Inception Net-V3的最后一个池化层。这一层的输出是2048 维向量，因此，每个图像会被预测为2048个特征。

　　对于常见的分布来说（比如高斯分布），当分布类型确定后，只要再确定均值和方差，那么这个分布就确定了。我们假设生成图像与真实图像也服从类似分布，如果它们之间的均值与方差比较相近，我们就有理由认为生成图像是比较真实的。但是直接计算图像的均值和方差是不可取的，因为协方差矩阵规模太大（像素数*像素数）。所以就先通过Inception Net-V3映射为2048维的特征向量，再求特征向量的均值与协方差矩阵进行比较。

　　于是，真实图像分布与生成器生成分布之间的差异，即FID分数，是这样定义的：

$\begin{equation} \begin{aligned} \text{FID}(x,g) = \left\|\mu_x - \mu_g\right\| + \text{Tr}\left(\Sigma_x+\Sigma_g-2\sqrt{\Sigma_x\Sigma_g}\right) \end{aligned} \end{equation}$

　　其中 $\mu_x,\Sigma_x$ 分别是真实图像集合在Inception Net-V3输出的2048维特征向量集合的均值和协方差矩阵， $\mu_g,\Sigma_g$ 分别是生成图像集合在Inception Net-V3输出的2048维特征向量集合的均值和协方差矩阵。 $\text{Tr}$ 表示矩阵的迹。根号表示矩阵的平方根，需要注意的是，它并不是按元素进行的运算，表示如下：

$A = \sqrt{A}\sqrt{A}$

　　代码实现时，矩阵根号开出来大概率会出现复根，我们直接取它的实部即可。另外，在python中，我们通常使用scipy.linalg.sqrtm函数对矩阵开方，它是通过迭代的方式来计算的，结果并不是很准确。经过实验，MATLAB计算得要准确得多，所以我们可以保存两个均值与协方差矩阵，然后用MATLAB来计算FID。

　　较低的FID意味着生成分布与真实图片分布之间更接近，如果用于测试的真实图片清晰度高且种类多样，也就意味着生成图像的质量高、多样性好。

3 SWD#

　　SWD(Sliced Wasserstein Distance)是以Wasserstein距离为标准，衡量两个分布之间差异的评估方法。

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

阅读排行：
· 25岁的心里话
· 基于 Docker 搭建 FRP 内网穿透开源项目（很简单哒）
· 闲置电脑爆改个人服务器（超详细） #公网映射 #Vmware虚拟网络编辑器
· 一起来玩mcp_server_sqlite，让AI帮你做增删改查！！
· 零经验选手，Compose 一天开发一款小游戏！

LOADING . . .

qizhou

GAN量化评估方法——IS（Inception Score）和FID（Frechet Inception Distance score）

1 IS#

1.1 定义#

1.2 具体应用#

2 FID#

2.1 定义#

3 SWD#

公告

积分与排名

随笔分类 (184)

阅读排行榜

评论排行榜

推荐排行榜

最新评论