生成式对抗网络

GAN

Generative Adversarial Nets, 生成式对抗网络

生成模型
- 生成式对抗网络（GAN）的目的是训练这样一个生成模型，生成我们想要的数据
GAN框架
- 判别器(Discriminator)：区分真实(real)样本和虚假(fake)样本。对于真实样本，尽可能给
  出高的评分1；对于虚假数据，尽可能给出低个评分0
- 生成器(Generator)：欺骗判别器。生成虚假数据，使得判别器D能够尽可能给出高的评分1
- 随机噪声z：从一个先验分布（人为定义，一般是均匀分布或者正态分布）中随机采样的向量（输入的向量维度越高，其生成图像的种类越多）
- 真实样本x：从数据库中采样的样本
- 合成样本G(z)：生成模型G输出的样本
- 目标函数：
  - 让真实样本的输出值尽可能大，同时让生成样本的输出值尽可能小
  - 所以判别器D最大化的目标函数就是对于真实样本尽可能输出1，对于生成器的生成样本输出0
  - 生成器G最小化目标函数就是让生成样本能够欺骗判别器，让其尽量输出1
训练算法
- 随机初始化生成器和判别器
- 交替训练判别器D 和生成器G，直到收敛
  - 固定生成器G，训练判别器D区分真实图像与合成图像
  - - 一个样本x来自真实分布\(P_{data}\)和生成分布\(P_g\)概率的相对比例
    - 如果来自生成分布的概率为0（\(P_g = 0\)），那么就给出概率1，即确定该样本是真的
    - 如果来自真实分布的概率为0（\(P_{data} = 0\)），那么就给出概率0，即确定该样本是假的
    - 因为最优判别器的输出属于[0,1] ，所以判别器的输出用sigmoid激活
  - 固定判别器D，训练生成器G欺骗判别器D
KL散度：一种衡量两个概率分布的匹配程度的指标
- 当\(P_1 = P_2\)时，KL散度为零
- 具有非负性，但存在不对称性（在优化的时候，会因为不对称性优化出不同的结果）
- 极大似然估计等价于最小化生成数据分布和真实分布的KL散度
JS散度
- 具有非负性，以及对称性
- 但存在问题：生成数据和真实数据分布的表达形式我们不知道，无法计算散度，也就没有目标函数，
  无法优化生成器
- GAN：生成式对抗网络通过对抗训练，间接计算出散度(JS)，使得模型可以优化
- 最大化判别器损失，等价于计算合成数据分布和真实数据分布的JS散度
- 最小化生成器损失，等价于最小化JS散度（也就是优化生成模型）

cGAN

Conditional GAN, 条件生成式对抗网络

网络结构
- 为了能够满足条件生成，所以需要添加一个class标签
- 对于生成器而言，没啥变化，只是增加了一个label输入
- 对于判别器而言，输入为图片以及对应标签；判别器不仅判断图片是否为真，同时也要判断时候和标签匹配
  - 真实图片+正确label==》1
  - 真实图片+错误label==》0
  - 合成图片+任意label==》0

DCGAN

Deep Convlutional GAN, 深度卷积生成式对抗网络

原始GAN，使用全连接网络作为判别器和生成器
- 不利于建模图像信息
- 参数量大，需要大量的计算资源，难以优化
DCGAN，使用卷积神经网络作为判别器和生成器
通过大量的工程实践，经验性地提出一系列的网络结构和优化策略，来有效的建模图像数据
判别器
- 通过Pooling下采样，Pooling是不可学习的，这可能造成GAN训练困难
- 使用滑动卷积（步长大于1），让其可以学习自己的下采样策略
生成器：滑动反卷积
- 通过插值法上采样，插值方法是固定的，不可学习的，这可能给训练造成困难
- 使用滑动反卷积（进行扩展），让其可以学习自己的上采样策略

WGAN/WGAN-GP

Wasserstein GAN with Weight Clipping/ Gradient Penalty

原始GAN存在的问题
- 训练困难：生成器无法生成想要的数据
- 模式崩塌：生成器无法学习到完整的数据分布
JS散度
- 已知GAN网络的目标函数
- 所以可以看到GAN网络的训练效果是和JS散度相关联的
- - 分析任意一个点x对JS散度的贡献：
    - 当\(P_1(x) = 0 and P_2(x)=0\)（即该数据既没有在真实数据中出现，也没有在生成数据中出现）
      - \(JS(P_1||P_2)=0\)，对计算JS散度无贡献
    - 当\(P_1(x) != 0 and P_2(x)=0\)或\(P_1(x) = 0 and P_2(x)!=0\)
      - 贡献等与常数\(log2\)，但梯度等于零
    - 当\(P_1(x) != 0 and P_2(x)!=0\)
      - 对计算JS散度有贡献且不为常熟，因此梯度不为零
- 但\(P_{data}(x)\)与\(P_g(x)\)发生不重叠（或重叠部分可忽略）的可能性非常大，即\(P_1(x) != 0 and P_2(x)!=0\)这种情况发生概率很小
- GAN：真实数据分布\(P_{data}\)和生成数据分布\(P_G\)是高维空间中的维度流形，它们重叠的区域可以忽略不记（能够提供梯度信息的数据可以忽略不记） == =》所以无论它们相距多少，其JS散度都是常数（仅当完全重合时，JS散度为零），导致生成器的梯度（近似）为零，造成梯度消失===》GAN优化困难
Wasserstein距离
- \(W(P_1,P_2) = inf_{γ\sim\prod(P_1,P_2) E_{(x,y)\simγ}[||x-y||]}\)
  - \(\prod(P_1,P_2)\)：P1和P2组合起来的所有可能的联合分布的集合
  - \(|| x - y ||\)：样本x和y的距离
  - inf：所有可能的下界
  - 假设对于P1和P2上的点x，y有一个联合分布γ；在这个联合分布上取一对点(x,y)，计算他们的距离\(||x-y||\)，然后通过很多的点，计算出它的期望；然后我们再遍历所有可能的联合分布，得到一个最小的距离，就是我们定义的W距离。
    - e.g
    - 假设有两个离散的分布，每个分布只包含两个点（A、B和C、D），每个点的出现概率相等，横竖距离均为1
    - 通过这个分布，可以计算出距离\(||x-y||\)
      - 距离 C D
        
        A 1 \(\sqrt{2}\)
        
        B \(\sqrt{2}\) 1
    - 下面讨论所有可能出现的联合分布形式，下面仅举例其中可能的两种
      - 在联合分布1下，可以计算出期望\(2\sqrt2\)
      - 同理，在联合分布2下，计算得出期望为2（可以得到是所有可能的联合分布中最小的期望值）
    - 所以得到W距离为2
  - 可以理解为：将分布P1移动到分布P2，已知彼此距离\(||x-y||\)，选择一个合适的移动方案γ（联合分布），让走的路径最小，就是W距离。
    - 在最优的路径规划γ下，把土堆从P1移动到P2所需的路径（最短距离消耗）
  - 但inf（穷举所有可能，取下界）项无法直接求解
- - 为了解决其中李普希思系数存在的限制，使用了权重截断的方法
  - 权重截断：在每次优化判别器D之后，把D的权重的绝对值限制在某个范围
WGAN-GP
- WGAN存在的问题
  - 权重二值化：WGAN几乎所有参数都是正负0.01，浪费神经网络的拟合能力（权重截断）
  - 梯度衰减、爆炸（权重截断的截断阈值）
- WGAN-GP：把Lipschitz限制作为一个正则项加到Wasserstein损失上，在优化GAN损失的同时，尽可能满足Lipschitz限制

距离	C	D
A	1	\(\sqrt{2}\)
B	\(\sqrt{2}\)	1

Progressive GAN

SN-GAN

谱归一化层实现利普希茨连续

WGAN：权重截断--> 权重二值化、梯度消失/爆炸
WGAN-GP：惩罚项--> 收敛速度仍然慢于DCGAN
SN-GAN：每层权重除以该层矩阵谱范数即可满足利普希茨连续

Self-Attention GAN

建模长距离依赖关系

原始GAN存在的问题
- 局部效果很逼真，全局效果不逼真
引入自注意力机制
- 建立一个长距离依赖关系
- 让最终的输出每一部分不仅仅是和对应的感受野相关，也和整体全局相关联

BigGAN

增大Batch Size
噪声不单单加在输入层，还加在中间层
截断技巧
- 在一个分布中采样噪声，如果噪声超过阈值，则丢弃再次采样
- 阈值越大，图片多样性越好，但图片质量会略微下降
- 阈值越小，图片多样性越差，但图像质量更好

实战项目-基础

图像翻译
- 学习图像到图像的映射
  - 黑白图像-->彩色图像：学习彩色图像的条件分布
U-NET
- 神经网络中，浅层卷积核提取Low-Level特征，深层卷积核提取High-Level特征
- High-Level特征：分类、检测需要对图像深层理解等任务
- Low-Level特征：保留更多图像细节
- 图像翻译任务：需要Low-Level和High-Level 特征
- ResGenerator
  - 在残差网络中，通过残差的形式，不断向后传递
  - 同时还解决了退化的问题