[Paper Reading] DDIM: DENOISING DIFFUSION IMPLICIT MODELS

名称

DDIM DENOISING DIFFUSION IMPLICIT MODELS

TL;DR

这篇文章介绍了一种名为去噪扩散隐式模型（Denoising Diffusion Implicit Models, DDIMs）的新型生成模型，它是基于去噪扩散概率模型（DDPMs）的改进版本。DDIMs旨在加速DDPMs的采样过程，通过引入非马尔可夫链的扩散过程来实现更高效的样本生成。文章展示了DDIMs在图像生成任务中的优越性能，包括更快的生成速度、更好的样本质量和支持潜在空间的语义插值。

Method

主要贡献

引入非马尔可夫链的正向扩散过程，允许模型在更少的步骤中生成样本。
证明了非马尔可夫链的变分目标与DDPMs的目标在数学上是等价的，这意味着可以使用相同的训练目标来训练DDIMs。

DDIM采样过程

主要差别在于只有特定步骤加入随机方差，不加入随机方差的状态转移可以合并到相邻的采样，从而加速生成过程，即采样过程使用reverse process的子序列也能生成合理的样本。

Q：如何直观理解DDIM相对于DDPM采样过程可以加速？

从DDPM训练过程来看，给定各阶段alpha、原图X0以及采样时刻t，那么训练Loss也就确定了，所以训练过程以某个时刻状态进行训练，并不是一定要依赖于相邻时刻的状态。并且，训练过程Loss可以将多步高斯噪声采样的马尔可夫链合并成一个高斯噪声采样，那么推理时也可以做中间某几步的采样合并，从而减少采样步数，加速生成速度。

Q：如何直观理解DDIM相对于DDPM可插值属性变强？

假如DDIM每一步采样都不加高斯方差那项，那么生成过程就变成由潜空间随机噪声一步生成图像，语义上连贯性要比生成过程中间增加多步高斯噪声干扰要更好。

From kimichat

FromChatGPT(提示词：为什么说DDIM生成图像的过程允许语义上的插值呢？) DDIM（Denoising Diffusion Implicit Models）生成图像的过程允许语义上的插值，主要是因为其生成过程是基于潜在空间的确定性映射，而不是基于随机采样。以下是DDIM能够支持语义插值的关键特性：

潜在空间的连续性：DDIM的生成过程通过潜在空间进行，这个空间是由模型在学习数据分布时隐式定义的。由于生成过程是确定性的，潜在空间中的点与数据特征之间存在连续的映射关系。这意味着在潜在空间中移动时，生成的图像会平滑地过渡，保持语义上的连贯性。

高级特征的保留：DDIM在训练过程中学习到了数据的高级特征，这些特征在潜在空间中被编码。由于生成过程是确定性的，当在潜在空间中进行插值时，这些高级特征得以保留，从而生成的图像在语义上与原始图像相似。

非马尔可夫链的结构：DDIM使用的非马尔可夫链结构允许模型在生成过程中跳过一些中间状态，直接从噪声状态转移到接近最终数据分布的状态。这种结构使得模型能够在潜在空间中进行有效的插值，而不需要逐步模拟整个扩散过程。

生成过程的可控性：由于DDIM的生成过程是确定性的，研究者可以精确控制生成的每一步，包括插值的过程。这种可控性使得在潜在空间中的任何两点之间进行插值都能够产生有意义的结果，而不是依赖于随机性。

训练目标的一致性：DDIM在训练过程中使用的是与DDPM相同的变分目标函数，这意味着模型已经学习了如何从潜在空间中的噪声状态恢复出清晰的数据。因此，即使在生成过程中进行插值，模型也能够保持数据的语义信息。

综上所述，DDIM之所以能够支持语义上的插值，是因为其生成过程在潜在空间中是连续和确定性的，能够保留数据的高级特征，并且允许精确控制生成的每一步。这些特性共同使得DDIM在生成图像时能够进行语义上有意义的插值。

Experiment

DDIMs在多个数据集上生成的图像质量优于DDPMs。
DDIMs能够在10到100倍的速度提升下保持或提高样本质量。
DDIMs还展示了在潜在空间中进行语义插值的能力，这是DDPMs所不具备的。

思考

其实在看DDPM训练过程的推导应该可以联想到生成过程可以使用类似的套路合并采样次数。

fariver