WGAN
原始的GAN衡量分布间距离的方法是JS Divergence
而JS Div无法衡量两个没有交集分布间的距离(均为log 2)
用Wasserstain Distance,P&Q分布转换的最小距离
Discriminator必须足够光滑,否则会无限拉开real和fake之间的距离,无法收敛
1-Lipschitz:y2 - y1 <= K( x2 - x1 ) | K=1
等价于对所有Input的X,Gradient of D(x) <= 1,但无法在所有X上校验
只能在有限的Penalty上确保G满足1-Lipschitz
即PG和Pdata之间连线上的区域
梯度越接近1越好,防止梯度消失和梯度爆炸