StyleGAN: A Style-Based Generator Architecture for Generative Adversarial Networks
Background
- 传统的GAN网络的输入隐空间(input latent space)必须服从训练数据的概率密度
- 因此造成了输入向量z的各项属性相互纠缠,特定特征表达能力差
Motivation
- 通过特征解纠缠提高生成器的生成能力
Model
A为w提供的scale&shift的参数,对每一张特征图都进行scale&shift。
B为噪声图的各通道权重,噪声直接加到各通道的特征图中。
相比ProGAN,没有使用Pixel-wise Norm。使用了equalized learning rate。
Technique
- 由于实例归一化的存在,每次scale&shift操作都不依赖上一次的结果。因此每一层style仅影响随后一层卷积。
- Style mixing:一部分图像将由两个不同的输入z生成,在随机的某一层,输入将由z1变为z2,以此防止网络将两相邻层所表示的特征相关联。
- Stochastic variation:只要符合对应的分布,图像上的一些细微的变化不会影响人类的认知,并可以增强多样性。但是传统的附加随机噪声的方法会影响原有图像的特征,尺度级噪声能够解决该问题。
Conclusion
本文开创性的去除输入层,将卷积的输入从随机向量改为固定的可学习的向量,并将输入向量编码到另一隐空间,为图像生成提供样式,使得图像在不同分辨率下的样式得以解纠缠,从而获得更好的图像生成结果。
Reference
[1] Karras, Tero, Timo Aila, Samuli Laine, and Jaakko Lehtinen. "Progressive Growing of GANs for Improved Quality, Stability, and Variation." ArXiv:1710.10196 [Cs, Stat], February 26, 2018. http://arxiv.org/abs/1710.10196.
[2] Karras, Tero, Samuli Laine, and Timo Aila. "A Style-Based Generator Architecture for Generative Adversarial Networks," 4401–10, 2019. https://openaccess.thecvf.com/content_CVPR_2019/html/Karras_A_Style-Based_Generator_Architecture_for_Generative_Adversarial_Networks_CVPR_2019_paper.html.