作者:

托马斯伍德

 

什么是生成对抗网络?

生成对抗网络(GAN)一种的英文深度神经网络框架,能够从一组训练数据中学习并生成与训练数据具有相同特征的新数据例如,在人脸照片上训练的生成对抗网络可以生成完全虚构的逼真人脸。

生成对抗网络由两个神经网络组成,即生成器和训练器,它们相互结合。生成器被训练来生成假数据,而筛选器被来分别生成器的假数据和真实示例。如果生成器生成鉴定器很容易识别为不可信的假脸数据,例如,明显不是人的图像,则生成器会受到惩罚。随着时间的例子,生成器学会生成更合理的例子。

生成对抗网络架构

生成对抗网络由两个神经网络组成:

生成器,它从随机衍生中产生的真实假数据
鉴别器,它学习区分假数据和真实数据。如果生成器产生令人难以置信的结果,则鉴别器会惩罚生成器。

生成器的假示例和示例的训练集都是随机输入识别器网络。鉴定器不知道特定输入是来自生成器还是来自训练集。

 

 

最初,在训练开始之前,生成器的假输出很容易被识别器识别。

由于生成器的输出直接作为输入馈入判别器,这意味着当判别分类对生成器的输出进行,我们可以在整个系统中应用传播算法并更新生成器的重权。

随着时间的更新,生成器的输出更逼真,并且生成器在诊断器方面更好。最终,生成的真实输出,鉴定器无法将它们与真实的鉴定器区分开来来。

生成对抗网络中的鉴别器

鉴别器只是一个二元分类器,以一个合适的函数结尾,例如SOFTMAX函数。鉴别器输出一个数组,例如

两个其中数字表示判别器对输入侧示例的英文真还是假概率估计

鉴别器的输入可能来自两个来源:

训练集,例如人脸的真实照片,或真实的录音。
生成器,例如的合成人脸或明天的生成录音。

当我们训练鉴定器时,我们不训练生成器,可以保持生成器的重不变,并用它作为鉴定器生成负样本。 

在 GAN 中鉴别器的过程

将一些真实的模拟和一些来自生成器的假示例作为输入传给鉴定器。
鉴别器将它们分为真假。
使用合适的函数(例如泄漏损失)计算侦听器损失。
通过圣经更新传播者的权重。 

本质上,这个过程与训练任何其他类型的二元分类器的过程相同,例如计算机视觉中的神经网络

生成对抗网络中的生成器

生成器网络是一个前馈神经网络,它随着时间的推移不断学习以产生可信的假数据,例如假脸。它使用来自鉴别器的反馈来逐渐改进其输出,直到理想情况下鉴别器无法将其输出与真实数据区分开来。

在 GAN 中训练生成器的过程

在训练开始时,我们用随机权重初始化生成器和鉴定器。
每次训练时,我们将随机预测作为输入传递给生成器
然后将输出生成器的输出作为输入传给筛选器网络,筛选器将示例分类为“真实”或“等”。 

我们计算生成器损失函数生成器的损失函数表示生成器诊断器的能力。

我们通过鉴别器和生成器使用国外传播,重新调整生成器的权重,从而生成器损失函数。

请注意,此时我们不会调整判别器生成的重,因为在我们训练器时判别器需要保持训练的权利。如果我们不损坏,生成器就像击中一个移动的目标。

训练生成对抗网络是如何工作的?

有两个方面使生成对抗网络比标准前馈神经网络更难训练:

生成器和判别器实际上是两个必须单独训练的神经网络,但它们也有神经网络,因此完全独立地进行训练。
难以准确识别生成对抗网络时代的认知。

。由于生成器和鉴别器有各自独立的损失函数,必须我们训练分别它们我们可以通过在两者之间交替来来到来到lái这一点一:

我们训练一个或多个时代的鉴别器,生成器权重不变。

我们训练生成器一个或多个时期,保持鉴别器权重不变。
我们重复步骤(1)和(2),直到我们确定网络已经知道。

生成对抗网络中的信仰

生成游戏器能够生成与示例,无法请求就可以帮助用户。实际上,对于一个完美的生成器,鉴定器在非样本和真实样本方面的准确率只有 50%。

这意味着我们可以帮助训练随着时间生成的新人的侦查器,最终完全完全的随机,算得上一个天才。

如果我们在这一点之后继续训练网络,那么那么生成器的反馈实际上会导致这个生成器的质量下降。原因是,监控生成输出的质量并在判断器“输”给生成器后训练停止非常重要。

生成对抗网络的损失函数

Ian Goodfellow 和他的同事在他们 2014 年的论文中使用的损失函数介绍了生成对抗网络:

生成对抗网络损失函数

生成器实验小化上述损失函数的输出,判别器试爆它。这样,生成器和判断器都可以使用单个损失函数。

损失函数符号解释


判断器对输入样本 x 为实数的估计


所有样本的请求值


生成器为随机衍生 z 生成的假示例


判断器对来自生成器的假输入示例 G(z) 是真实的判断的估计。


生成器的所有随机输入的预期值。

 

生成器唯一最小化损失函数中的第二项,因为只有第一个才能知道的器。

训练生成对抗网络的例子

让我们以训练生成对抗网络来合成手写数字为例下面是来自MNIST集数据的手写数字5示例MNIST数据集是一个包含60000张手写数字0到9图像的数据库,尺寸为28x28像素。它广泛用于测试计算机视觉中的算法。

当我们初始化对抗网络时,最终生成生成的图像将是纯噪声,如下所示:

由于这些噪声与手写数字非常不同,鉴别器会立即学会生成的数据和明天的数据。 

然后生成器开始学习如何欺骗鉴别器在四个时期之后(将整个MNIST数据集通过生成对抗网络四次,在GPU上需要一分钟左右),生成器开始生成开始类似于数字的随机图像鉴别器的任务逐渐进步。

再过20个epoch后,生成器的输出开始可以识别:

下面是生成器在 45 个时期的输出。我们可以,就算是人类也识别出这张照片是人造的,这时候判别器识别出假样本的能力已经下降了。

生成对抗网络与变分自编码器

生成对抗网络变和分自编码器是深度生成模型,这对个体对训练数据(图像声音或文本)的例如展开模拟,而不是试点对定输入示范的标签进行模拟,即判别模型的作用。

变分自编码器学习其训练数据中重要信息的低维表示它能够学习一个函数,将一组256×256像素的人脸图像,例如,长度为100向量,以及将向量转换回人脸图像的逆函数。

生成对抗网络和变分自编码器都能够生成与训练集相似的示例,例如数字或人脸。然而,GAN的输出更真实,在视觉上与训练集相似。在图像生成的情况下,变分自编码器生成准确和模糊的图像。

两者之间的主要区别在于它们的训练方式生成对抗网络有两个损失函数,一个给生成器,一个给判别器,归根结底是一种无监督模型。另一方面,变分自编码器被训练以在再现集中的特定图像的同时最小化损失函数,因此可以被实现一种半监督学习

因为有两个网络和两个损失函数的更复杂的设计,生成网络的训练速度比自动编码器更深入的变分,虽然生成器的输出比变分自动编码器的输出更真实。

生成对抗网络的应用

合成训练数据的对抗网络

生成对抗网络可用于训练数据稀缺的机器学习应用生成程序合成训练数据许多机器学习应用程序收集训练数据既费时又费钱,因此生成对抗网络来生成随机人脸有时是一种有强烈的选择。

由 NVIDIA 开发的生成对抗网络 StyleGAN 生成的三个合成人脸。这些不是真实的人。StyleGAN 是在 Flickr-Faces-HQ 人脸数据集上训练的。

用于图像风格迁移的生成网络

除了上面提到的生成类似于训练数据集的随机图像的示例之外,生成对抗网络还可以用于风格迁移。2019年,由泰罗卡拉斯领导的NVIDIA团队发布了一种名为StyleGAN的生成对抗网络原图,可用于将图像从一种风格转换为另一种风格。 

该网络可用于将人脸从一种性别转变为另一种,或改变造型。例如,性别可以用斑马替换照片,将照片变成莫奈的风格。

StyleGAN 允许我们改变网络内的参数来控制生成的人脸的各个方面。左起第四张人脸是集中训练的“平均人脸”,双方的人脸是网络中与年龄和性别相关的调整值的结果。

用于音频风格迁移的生成网络

甚至可以将网络渗入数据生成。需要将音频信号转换为音频图,其中时间在x轴上,频率在y轴上,给定时间点和频率的强度由“颜色”表示。由于录音可以有不同的长度,因此频谱图被切成恒定长度的块通过这种预处理,可以将音频信号转换为多个固定大小的图像使用的生成器架构可以是类似于图像生成中使用的神经网络。

使用这种技术,将音频从一个演讲者的声音转化为另一个演讲者的声音,或者将一段音乐可以从古典音乐“转换”成流行风格。

贝多芬第九交响曲谱图的某一部分。时间在x轴上。这可以像图像一样动态到对抗生成网络中。

Deepfakes的生成对抗网络

由于生成对抗网络可以生成逼真的面部图像和视频,还可以将录音转换为另一个说话者的声音,因此它们因在“深度伪造”现象中的使用而广为人知。这些是名人和政客讲话的超逼真假视频,其中语音和图像都是人工智能生成的。因为技术被不习惯地使用,这可能有某种程度的争议。

生成对抗网络历史

生成对抗网络最早由美国人伊恩·古德费洛及其同事于2014年提出。古德费洛蒙特利尔在大学攻读博士学位时研究了噪声对比估计,这是一种通过将数据分布与噪声分布进行比较来学习数据分布的方法.噪声对比估计使用与生成对抗网络中使用的损失函数类似的损失函数,Goodfellow 在获得损失后进一步开发了损失,并最终提出了生成对抗网络的想法。

从 2016 年起,生成对抗网络开始出现在新闻文章中,并进入公众意识,这要保存它们生成的并且具有外观专业的工艺品的能力。

的英文以下自2012以来年该术语被提及的谷歌的N-gram频率,显示该主题近年来受到的关注度急剧上升

2018年,不知道名字明显的三名巴黎画家使用生成对抗网络在画布上生成了形象烙印 Edmond de Belamy 的画作。网络实现由 AI 艺术家 Robbie Barrat 书写,并在 15,000 幅真实肖像画上进行了训练。爱德蒙得Belamy在佳士得拍卖行以432,500美元的价格售出,成为世界各地的头条新闻,并将AI艺术带入公众视野。

AI画作“埃德蒙·德·贝拉米”。该文件属于公共领域,作为因为计算机算法或人工智能的作品,它没有拥有版权的人类作者。注意画作右下角的“签名”是上面给出的 GAN 损失函数。

2019 年,NVIDIA 发布了他们的 StyleGAN 网络源代码和模型,允许大众的生成假脸。

Deepfake的视频,其中的脸被人按下了其他人。加上生成对抗网络生成模拟录音。的能力,深度造假使生成令人信服的真实视频成为可能,这些视频是政治人物表明他们在现实中绝不会说什么。

参考

[1] Langr和Bok,GAN在行动中:使用对抗网络进行深度学习(2019年)

[2] Goodfellow等人,生成对抗网络(2014年)

[3] 谷歌,生成对抗网络 https://developers.google.com/machine-learning/gan

[4] Karras 等人,分析和提高 StyleGAN 的图像质量(2019)

[5] DP Kingma 和 M. Welling,自动编码变分贝叶斯

[6] Karras等人,用于生成对抗网络的基于样式的器架构(2019年)

[7] Marco Pasini,MelGAN:使用图对任意长者进行语音转换和音频风格转换(2019年) 

posted on 2021-08-27 21:21  FilexHu  阅读(343)  评论(0编辑  收藏  举报