stable diffusion (一) 概述
前段时间看了台湾大学李宏毅教授关于diffusion模型的课程,记录一下
1、Framework
diffusion model包括3个部分,核心是generation model。
(1) Text encoder。可以用bert,chatgpt之类的来生成embedding,或者使用clip。这部分是提前训练好的
(2)Decoder。一个简单的encoder-decoder模型,可以直接拿图像来做训练,不需要标签。注意:这里的encoder只在训练的时候使用,生成阶段
不会使用。也是需要提前训练好。
(3)generation model。训练的时候先对图像进行encoder(2中训练好的encoder),得到latent represention,然后对latent represention循环的
加噪声,去训练模型的denoise能力,输出是预测的噪声。
b站上有人搬运了课程(正课)速览图像生成常见模型_哔哩哔哩_bilibili