生成对抗网络GAN详细推导

转自：https://blog.csdn.net/ch18328071580/article/details/96690016

概述

1、什么是GAN？

生成对抗网络简称GAN，是由两个网络组成的，一个生成器网络和一个判别器网络。这两个网络可以是神经网络（从卷积神经网络、循环神经网络到自编码器）。我们之前学习过的机器学习或者神经网络模型主要能做两件事：预测和分类，这也是我们所熟知的。那么是否可以让机器模型自动来生成一张图片、一段语音？而且可以通过调整不同模型输入向量来获得特定的图片和声音。例如，可以调整输入参数，获得一张红头发、蓝眼睛的人脸，可以调整输入参数，得到女性的声音片段，等等。也就是说，这样的机器模型能够根据需求，自动生成我们想要的东西。因此，GAN 应运而生！
在这里插入图片描述

2、发展历史

生成对抗网络是由Ian Goodfellow等人于2014年在论文《Generative Adversarial Networks》中提出的。学术界公开接受了GAN，业界也欢迎GAN。GAN的崛起是不可避免的。

随着《Generative Adversarial Networks》提出后，GAN产生了广泛流行的架构，如DCGAN，StyleGAN，BigGAN，StackGAN，Pix2pix，Age-cGAN，CycleGAN。这些架构展示了非常有前途的结果。而随着GAN在理论与模型上的高速发展，它在计算机视觉、自然语言处理、人机交互等领域有着越来越深入的应用，并不断向着其它领域继续延伸。因此，本文将对GAN的理论与其应用做一个总结与介绍。

一、GAN模型

1、GAN的基本思想

GAN受博弈论中的零和博弈启发，将生成问题视作判别器和生成器这两个网络的对抗和博弈：生成器从给定噪声中（一般是指均匀分布或者正态分布）产生合成数据，判别器分辨生成器的的输出和真实数据。前者试图产生更接近真实的数据，相应地，后者试图更完美地分辨真实数据与生成数据。由此，两个网络在对抗中进步，在进步后继续对抗，由生成式网络得的数据也就越来越完美，逼近真实数据，从而可以生成想要得到的数据（图片、序列、视频等）。

如果将真实数据和生成数据服从两个分布，那么如图所示：
在这里插入图片描述
图中，蓝色虚线为判别分布D，黑色许虚线为真实的数据分布 $P_{data} Pdata,绿色实线为生成分布 P g P_{g} Pg。GAN从概率分布的角度来看，就是通过D来将生成分布推向真实分布，紧接着再优化D，直至到达图(d)所示，到达Nash均衡点，从而生成分布与真实分布重叠，生成极为接近真实分布的数据。$

2、GAN的基本模型

以图片为例，真实图片集的分布 $P_{data}{(x)} Pdata(x)， x x x 是一个真实图片，可以想象成一个向量，这个向量集合的分布就是 P d a t a P_{data} Pdata。我们需要生成一些也在这个分布内的图片，如果直接就是这个分布的话，很难做到。$

现在有的 generator 生成的分布可以假设为 $P_G(x;θ) PG(x;θ)，这是一个由 θ θ θ 控制的分布， θ θ θ 是这个分布的参数（如果是高斯混合模型，那么 θ θ θ 就是每个高斯分布的平均值和方差）。$

假设在真实分布中取出一些数据， ${x^1, x^2, ... , x^m} x1,x2,...,xm，我们想要计算一个似然 P G ( x i ; θ ) P_G(x^i; θ) PG(xi;θ)。$

对于这些数据，在生成模型中的似然就是：
$L=\prod _{i=1}^mP_G(x^i;\theta) L=i=1∏mPG(xi;θ)$

我们想要最大化这个似然，等价于让 generator 生成那些真实图片的概率最大。这就变成了一个最大似然估计的问题了，我们需要找到一个 $θ^* θ∗ 来最大化这个似然。寻找一个 θ* 来最大化这个似然，等价于最大化 log 似然。因为此时这 m 个数据，是从真实分布中取的，所以也就约等于，真实分布中的所有 x 在 P G P_G PG分布中的 log 似然的期望。$

真实分布中的所有 x 的期望，等价于求概率积分，所以可以转化成积分运算，因为减号后面的项和 θ 无关，所以添上之后还是等价的。然后提出共有的项，括号内的反转，max 变 min，就可以转化为 KL 散度的形式了，KL 散度描述的是两个概率分布之间的差异。

所以最大化似然，让 generator 最大概率的生成真实图片，也就是要找一个 θ 让 $P_G PG更接近于 P d a t a P_{data} Pdata。$

那如何来找这个最合理的 θ 呢？
我们可以假设 PG(x; θ) 是一个神经网络。

首先随机一个向量 z，通过 $P_G PG，然后来比较与真实分布 P d a t a P_{data} Pdata。$

神经网络只要有非线性激活函数，就可以去拟合任意的函数。那么分布也是一样，所以可以用一个直正态分布，或者高斯分布，取样去训练一个神经网络，学习到一个很复杂的分布。
在这里插入图片描述
如何来找到更接近的分布，这就是 GAN 的贡献了。先给出 GAN 的公式：

在这里插入图片描述
这个式子的好处在于，固定 $P_G PG 和 P d a t a P_{data} Pdata 之间的差异。然后要找一个最好的 G G G，让这个最大值最小，也就是两个分布之间的差异最小。表面上看这个的意思是，对于判别器，D 要让这个式子尽可能的大，也就是对于 x 是真实分布中，D(x) 要接近与 1；对于 x 来自于生成的分布，D(x) 要接近于 0。对于生成器来说，G 要让式子尽可能的小，让来自于生成分布中的 x，需要生成的数据尽量真，D(x) 尽可能的接近 1。$

现在我们先固定 G，来求解最优的 D，也就是说，需要D越大越好：
在这里插入图片描述
对于一个给定的 x，得到最优的 D 如上，范围在 (0,1) 内，把最优的 D 带入

可以得到：

在这里插入图片描述

JS 散度是 KL 散度的对称平滑版本，表示了两个分布之间的差异，这个推导就表明了上面所说的，固定 G。

表示两个分布之间的差异，最小值是

现在我们需要找个 $P_G{(x)}=P_{data}(x) PG(x)=Pdata(x) 时，G 是最优的。$

二、 GAN的训练

有了上面推导的基础之后，我们就可以开始训练 GAN 了。结合开头说的，两个网络交替训练，我们可以在起初有一个 $G_0 G0 和 D 0 D_0 D0，先训练 D 0 D_0 D0 找到：然后固定 D 0 D_0 D0 开始训练 G 0 G_0 G0，训练的过程都可以使用 gradient descent，以此类推，训练 D 1 D_1 D1, G 1 G_1 G1, D 2 D_2 D2, G 2 G_2 G2,…$

但是这里有个问题就是，你可能在 $D_0^* D0∗ 的位置取到了：然后更新 G 0 G_0 G0 为 G 1 G_1 G1，可能但是并不保证会出现一个新的点 D 1 ∗ D_1^* D1∗使得这样更新 G 就没达到它原来应该要的效果，如下图所示：避免上述情况的方法就是更新 G 的时候，不要更新 G 太多。$

知道了网络的训练顺序，我们还需要设定两个 loss function，一个是 D 的 loss，一个是 G 的 loss。下面是整个 GAN 的训练具体步骤：
在这里插入图片描述
上述步骤在机器学习和深度学习中也是非常常见，易于理解。

简单的来说，就是：

给定 $G_0 G0，最大化 V ( G 0 , D ) V(G_0,D) V(G0,D) 以求得 D 0 ∗ D_0^* D0∗，即 m a x [ J S ( P d a t a ( x ) ∣ ∣ P G 0 ( x ) ] max[JS(P_data(x)||P_G0(x)] max[JS(Pdata(x)∣∣PG0(x)];$
固定 $D_0^* D0∗，计算 θ G 1 θ_G1 θG1 ← θ G 0 θ_G0 θG0 − η ( d V ( G , D 0 ∗ ) / d θ G ) η(dV(G,D_0^*) /dθ_G) η(dV(G,D0∗)/dθG) 以求得更新后的 G 1 G_1 G1；$
固定 $G_1 G1，最大化 V ( G 1 , D 0 ∗ ) V(G_1,D_0^*) V(G1,D0∗) 以求得 D 1 ∗ D_1^* D1∗，即 m a x [ J S ( P d a t a ( x ) ∣ ∣ P G 1 ( x ) ] max[JS(P_data(x)||P_G1(x)] max[JS(Pdata(x)∣∣PG1(x)];$
固定 $D_1^* D1∗，计算 θ G 2 θ_G2 θG2 ← θ G 1 − η ( d V ( G , D 0 ∗ ) / d θ G ) θ_G1 −η(dV(G,D_0^*) /dθ_G) θG1−η(dV(G,D0∗)/dθG) 以求得更新后的 G 2 G_2 G2；$
。。。

在这里插入图片描述

三、存在的问题

问题一

上面 G 的 loss function 还是有一点小问题，下图是两个函数的图像：
在这里插入图片描述

所以我们把 G 的 loss function 修改为：
在这里插入图片描述
这样可以提高训练的速度。

问题二

还有一个问题，就是经过实验发现，经过许多次训练，loss 一直都是平的，也就是：
在这里插入图片描述
JS 散度一直都是 $P_G PG 和 P d a t a P_{data} Pdata 完全没有交集，但是实际上两个分布是有交集的，造成这个的原因是因为，我们无法真正计算期望和积分，只能使用 sample 的方法，如果训练的过拟合了，D 还是能够完全把两部分的点分开，如下图：对于这个问题，我们是否应该让 D 变得弱一点，减弱它的分类能力，但是从理论上讲，为了让它能够有效的区分真假图片，我们又希望它能够 powerful，所以这里就产生了矛盾。$

还有可能的原因是，虽然两个分布都是高维的，但是两个分布都十分的窄，可能交集相当小，这样也会导致 JS 散度算出来

解决的一些方法，有添加噪声，让两个分布变得更宽，可能可以增大它们的交集，这样 JS 散度就可以计算，但是随着时间变化，噪声需要逐渐变小。

问题三

还有一个问题叫 Mode Collapse，如下图：
在这里插入图片描述
这个图的意思是，data 的分布是一个双峰的，但是学习到的生成分布却只有单峰，我们可以看到模型学到的数据，但是却不知道它没有学到的分布。

造成这个情况的原因是，KL 散度里的两个分布写反了
在这里插入图片描述
这个图很清楚的显示了，如果是第一个 KL 散度的写法，为了防止出现无穷大，所以有 $P_{data} Pdata 出现的地方都必须要有 P G P_G PG 覆盖，就不会出现 Mode Collapse。$

posted @ 2020-10-04 22:06 你的雷哥阅读(3515) 评论(0) 收藏举报

刷新页面返回顶部

你的雷哥