Generative Adversarial Nets——解析

摘要

　　本文提出了一个通过对抗过程来预测产生式模型的新框架。在新框架中我们同时训练两个模型：一个用来获得数据分布的生成模型G，和一个用来估计样本来自训练数据而不是G的概率的判别模型D，G的训练过程是最大化D产生错误的概率，让其无法判断一个图像是由生成模型产生的，还是来自训练样本．这个框架相当于一个极小化极大的双方博弈。在任意函数G 和D 的空间中存在唯一的解，其中G恢复训练数据分布，并且D处处都等于

生成式模型就像是罪犯，专门造假币，判别式模型就像是警察，专门辨别假币，那生成式模型就要努力提高自己的造假技术使造的假币不被发现，而判别式模型就要努力提高自己辨别假币的能力。最终的结果就是两人达到一个平衡的状态，这就是对抗。因为每个人的cost function都依赖于另一个人的参数，但是每个人都不能控制别人的参数，所以这个场景可以认为是一个带有博弈色彩的优化问题。

　　这个框架可以针对多种模型和优化算法提供特定的训练算法。在这篇文章中，我们探讨了生成模型通过将随机噪声传输到多层感知机来生成样本的特例，同时判别模型也是通过多层感知机实现的。我们称这个特例为对抗网络。在这种情况下，我们可以仅使用非常成熟的反向传播和丢弃算法来训练两个模型。对于生成模型在生成样本时只使用前向传播算法即可。并且不需要近似推理和马尔可夫链作为前题。

对抗生成网络

先来看一个不太正式但是很直观的图：

上图中：

下面的水平线为均匀采样

蓝色的虚线表示判别器D(x; Θ_d)产生的分布

黑色的点线表示数据x的分布p_data

绿色的实线表示生成器G(z; Θg),生成的分布p_g

向上的箭头表示z通过G转化之后（x' = G(z)）与分布p_g的对应情况

a) 接近收敛的对抗模型对。p_g接近于p_data，并且D具有较准确的判别能力

b) 在判别器算法的内部循环中，D收敛到p_data(x) / (p_data(x) +p_g)

c) 在D的指导下，G生成的分布更加接近数据分布。

d) 经过几次训练之后D,G都具有不错的能力，并且都已经无法提升自己，此时p_{g =}p_data，D(x) = 1/2

我们说过对于生成模型G，通过最大化D产生错误的概率来对它训练（让它骗过D）。对于判别模型D，通过最大化样本来自训练数据而不是G的概率来对它训练（尽可能的识别G）。

目标函数：

　　

对于生成器G，我们训练后面一项，对于判别器D我们训练整个。

注：（1）优化D的过程在训练的内部所花费的代价是非常高的。因此，我们用 k steps来优化 D，one step 来优化 G 。这使得G改变的足够缓慢，那么D将保持在其最佳解附近。

{通常，在对抗网络中，判别模型D会赢。并且在实际中，D也比G会深很多。所以不要太担心D会变得太聪明（过拟合）}

　　（2）D和G要同步的很好，不更新D时，G不必过度训练。否则，x值相同时，G丢失过多z值，会导致p_g多样性不足。

　　（3）算法早期G的效果差，D会以高置信值来拒绝生成样本。log(1−D(G(z)))将很快饱和（梯度），所以我们通过最大化log(D(G(z)))而不是最小化在早期能提供非常强的梯度信息。

算法流程：

整个算法流程就结束了，接下来我们证明一下算法全局最优为p_{g =}p_data，并且对算法的收敛情况进行讨论。

1. 全局最优为p_{g =}p_data

命题1：固定G，判别器D的最优解为：

证明：

　　给定G，我们需要最大化目标函数V (G;D)

这里x = g(z)是给定的G产生的z和x的映射关系，并且这里的x所在的分布为p_g

对于任意不同时等于0的两个实数（a,b），函数当y∈(0,1)，最大值在a / (a + b)处。证毕

由命题1，公式（1）公式

目标：最小化C(G)，变量为p_g

定理1：当且仅当p_{g =}p_data时，C(G)达到最小，且值为-log4.

证明：

当p_{g =}p_{data时，由公式（2）可以得到}D_{_G}*(x) = 1/2.

把它代入方程4得到：C(G) = log 1/2 + log 1/2 = -log 4，由此我们可以得到当p_{g =}p_data时，C(G)的值为-log4。但是否为最小呢？我们看到：

　　　　　　

用C(G) = V(D_G*,G)减去上式我们得到：

　　

其中，KL表示KL散度，也称为相对熵，是一个距离函数。有KL(p||q) = ∑p(i)log(p(i) / q(i))。

由公式（5）我们能够得到JS散度：

其中，JSD表示JS散度

由于两个分布之间的Jensen–Shannon散度总是非负的，并且当两个分布相等时，值为

至此，我们证明了算法的全局最优解为p_g=p_data

2.证明Algorithm 1的收敛性

命题2：当G和D有足够的能力时。在算法1中，给定G，D总能达到它的最优值，并且通过更新

　　最终p_g收敛到p_data.

证明：

如上述准则，考虑

优势和劣势

优势：

Markov链不需要了，只需要后向传播就可以了。
生成网络不需要直接用样本来更新了，这是一个可能存在的优势。
对抗网络的表达能力更强劲，而基于Markov链的模型需要分布比较模糊才能在不同的模式间混合。

劣势：

对于生成模型，没有直接的表达，而是由一些参数控制。
D需要和G同步的很好才可以。

posted on 2017-07-24 13:35 J_K_Guo 阅读(581) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

导航

公告