stable diffusion (一) 概述

前段时间看了台湾大学李宏毅教授关于diffusion模型的课程,记录一下

1、Framework

      diffusion model包括3个部分,核心是generation model。

     

      (1) Text encoder。可以用bert,chatgpt之类的来生成embedding,或者使用clip。这部分是提前训练好的

            

     (2)Decoder。一个简单的encoder-decoder模型,可以直接拿图像来做训练,不需要标签。注意:这里的encoder只在训练的时候使用,生成阶段

              不会使用。也是需要提前训练好。

              

        

           (3)generation model。训练的时候先对图像进行encoder(2中训练好的encoder),得到latent represention,然后对latent represention循环的

             加噪声,去训练模型的denoise能力,输出是预测的噪声。

                  

 

b站上有人搬运了课程(正课)速览图像生成常见模型_哔哩哔哩_bilibili

posted @ 2023-04-03 09:07  牧马人夏峥  阅读(167)  评论(0编辑  收藏  举报