生成模型的评价指标:PSNR, SSIM, RMSE, MSE, NMI, IScore
20230220
PSNR
PSNR (Peak Signal-to-Noise Ratio) 峰值信噪比
PSNR越大,模型越好
SSIM
SSIM的大小介于-1~1,SSIM越大,模型越好
结构相似性量测法比NRMSE更能表现图一、图三之间存在著的极高的相似度
参考:
[1] https://zhuanlan.zhihu.com/p/50757421
[2] https://zh.wikipedia.org/zh-hans/結構相似性
MSE
MSE是均方误差,对异常值更敏感
MSE越小,模型越好
RMSE
均方根误差,RMSE越小,模型越好
参考:
[1] https://zhuanlan.zhihu.com/p/82309170
[2] https://zh.wikipedia.org/zh-hans/結構相似性
互信息量NMI
NMI介于0~1之间,还有另一种实现,结果介于1~2之间,同样,NMI越大,模型越好
参考:
[1] https://zhuanlan.zhihu.com/p/53840697
[2] https://www.cnblogs.com/picassooo/p/13409146.html
[3] https://scikit-learn.org/stable/modules/generated/sklearn.metrics.normalized_mutual_info_score.html
[4] https://github.com/scikit-image/scikit-image/blob/main/skimage/metrics/simple_metrics.py
Inception score
Inception Score 先使用 Inception Model 来测定图像分类所产生的图像的分布,然后计算 Conditional label distribution 𝑝(𝑦|𝑥)和 marginal distribution 𝑝(𝑦)之间的 KL Divergence。
IS数值越大,模型的效果越好。
$$\begin{equation} \begin{aligned} \text{IS}=\exp E_{x\sim p_G}KL(p(y|x)||p(y)) \end{aligned} \end{equation}]$$
1、对于单一的生成图像,Inception输出的概率分布熵值应该尽量小。越小说明生成图像越有可能属于某个类别,图像质量高。
2、对于生成器生成的一批图像而言,Inception输出的平均概率分布熵值应该尽量大。也就是说,因为生成器应该保证生成图像的多样性,因此一批图像在Inception的输出应该尽量平均地“遍历”所有1000维标签。
参考:
[1] https://jason7406.medium.com/gan评价指标-1-9b0cb9533c04
[2] https://www.cnblogs.com/qizhou/p/13504586.html
[3] https://github.com/nnUyi/Inception-Score/blob/master/inception_score.py