[Paper Reading] GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models

GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models

GLIDE(Guided Language to Image Diffusion for Generation and Editing)
时间：22/03
机构：OpenAI

TL;DR

本文研究使用Diffusion Model做图像生成过程，如何更好地加入conditional信息。主要尝试两种方法: CLIP-guidance, Classifier-free guidance，并且证明了后者效果更佳。文本是后续DALLE2的重要baseline。

Method

Classifier-free guidance

不同于classifier guidance直接将text信息c加入noise prediction每一步进行引导，classifier-free方法直接将c作为先验输入模型。另外，部分text/label信息替换为空，以防止diffusion生成图像过程过度依赖于text/label信息。s表示替换的比例（比如，s=1时就完全不替换，s=0.5时表示替换一半为空序列，文中超参数是替换了20%为空序列）

这个做法现在看好像很简单，不过之前给diffusion加condition不太容易，参考本文对比的ADM方法，使用classifier guidance需要在每一步使用分类器进行类别引导，非常麻烦参考。

CLIP guidance

个人理解：diffusion model的reverse process每一步扩散都是在一个正态分布的mean附近采样，而CLIP guidance在这个mean附近增加一个扰动，该扰动与 f(x)和g(c)点积的梯度有关。
直观的motivation：一些利用CLIP将文本特征融合到diffusion model中的方法，通常是对diffusion model reverse process过程中加过噪声的图像进行特征抽取，而CLIP在训练过程见到的却是清晰无噪的图像样本，这导致reserse process时图像与文本的特征并不是同分布，所以这类方法同常比较依赖数据增强来弥补这种分布差异。而本文reverse process过程加入CLIP guidance之后，不仅增加了text的condition，还增加了noise image的condition先验，缓解了该问题。上述这么处理也只能让diffusion model训练过程aware CLIP的image与text encoder。所以，后面作者提到又重新训练CLIP，让CLIP重新学习noise image的分布，称之为noise CLIP。

网络

整体网络结构参考OpenAI 21年一篇文章ADM，根据作者描述，使用两阶段的Diffusion model，第一阶段扩散生成64x64分辨率的图像，第二阶段是一个64 -> 256的上采样扩散模型。text信息使用了classifier-free方法进行编码训练，这样模型在输入空condition情况下也能正常工作。多模态信息融合使用上CLIP guidance方法(也叫noise CLIP)。

Experiment

![](https://img2024.cnblogs.com/blog/1067530/202403/1067530-20240318231144898-288521397.png 600x600)

总结与发散

类似于stable diffusion(同期工作，SD是21年12月放出)，特别是加condition的方式，不过还没有像stable diffusion那样直接在latent space扩散，而是使用低分辨率DM，再使用提升分辨率DM。另外，noise CLIP的做法听起来比较make sense。

资料查询

折叠Title

FromChatGPT(提示词：XXX)

posted @ 2024-03-18 23:46 fariver 阅读(359) 评论(0) 收藏举报

刷新页面返回顶部

fariver