扩散模型

该模型是学习从噪音中如何去除噪音生成一个他已经学会的图片,所以一开始输入模型的是噪音,但是经过一次处理效果不会非常好,所以要循环迭代很多次,得到最终生成结果。

模型预测的实际上是噪音,也就是说要将输入图片减去模型预测的噪音,得到生成结果。

 这里没有讲的太细,我的理解是神经网络需要的输入是正态分布的噪声采样,而去噪一次之后就不是正态分布了,所以需要再加上一点噪音。而从经验上讲,这么做可以稳定神经网络的结果

上图注意字幕挡住的图片,左边就是提到的平均外观

 

扩散实际上是一种思想,一种训练策略,视频中具体实现扩散的模型是Unet

用Unet的一个好处就是在上采样的过程中,可以把一些你想让模型知道的信息嵌入进去,通过embedding,例如time 、noise level、context(控制模型生成的内容)

 

具体的训练过程:首先你的数据集是一些高质量的图片,然后你给这个图片添加一个噪音,输入网络,网络要预测的是你添加的这个噪音。注意,由于噪音是你添加的,所以是可以算损失的。

在训练时,虽然可以通过时间和采样给出不同的噪音水平,但在实际训练中,我们不能对着同一个反复图片操作,要给模型看到更多的这一类的图片,这样才能使得训练结果稳定和均匀。

 

posted @ 2024-01-11 19:37  诸葛村夫CC  阅读(43)  评论(0编辑  收藏  举报