GAN相关（一）：Generative Adversarial Nets

准备用GAN网络做一些事情，所以开始梳理一下GAN的相关内容。从最经典的一篇，也就是GAN的名称的来源，古德费洛大神的这篇文章开始。

Generative Adversarial Nets （2014，Ian J. Goodfellow et.al.）

Abstract : generative model G ——> discriminative model D

生成式模型G用来capture训练数据集的分布，生成一个sample，然后判别式模型D就用来进行一个判别，即判断sample是来自训练数据还是G。训练G就是要使得它让D犯错的概率最大化。因此实际上就是一个minimax 二人博弈问题，最后会达到一个平衡，也就是D完全分不出G和原始训练数据，这就达到了我们的目的。这里的G和D都是用MLP实现的。

Intro :

我们知道，机器学习模型分生成式和判别式，现有的deep model多数是判别式模型，而生成式发展的并不好（在深度模型里面），因为很难去用MLE或者类似的去模拟很多很难了解的分布。这里的对抗网络实际上是用一个生成式模型学习”制造假币“（作者的比喻），并且用一个判别模型充当”警察“，让两者相互促进，从而达到indistiguishable的目的。

提到了VAE，也就是变分自编码机，比较了GAN和VAE的区别：Like generative adversarial networks, variational autoencoders pair a differentiable generator network with a second neural network. Unlike generative adversarial networks, the second network in a VAE is a recognition model that performs approximate inference. GANs require
differentiation through the visible units, and thus cannot model discrete data, while VAEs require differentiation through the hidden units, and thus cannot have discrete latent variables. Other VAE-like approaches exist [12, 22] but are less closely related to our method.

另外，还辨析了一下GAN和Adversarial Example的区别，这个现在看了是很明显的，所以不详述。

Adversarial Nets：

这个二人博弈的value function如下：

in practice，训练log(1-D(G(z)))在开始时可能不会很好的下降，原因很简单，因为开始的时候D可以很容易判别G和data，所以，这个log趋于饱和，所以我们max logD(G(z))，而不是min上面的log 1-DG，这样可以得到同样的G和D的不动点，同时又能在早期更好的下降。

下面是算法的一个示意图：

具体含义见上面的图的注释。这就是大概的工作原理。具体的操作和实现细节在这个algorithm 1中表述：

Optimizing D to completion in the inner loop of training is computationally prohibitive, and on finite datasets would result in overfitting. Instead, we alternate between k steps of optimizing D and one step of optimizing G. 由上可知，先做k步的D的更新，再做G的更新，交替优化，从而达到最优。在inner loop里我们认为将D已经训练到了Dopt，然后在对G进行训练。

对于GAN这样的网络，需要证明的是上面的算法是可以收敛并且可以收敛到最优解的。于是证明了一些定理，如下所示：