生成扩散模型漫谈（三）：DDPM = 贝叶斯 + 去噪

到目前为止，笔者给出了生成扩散模型DDPM的两种推导，分别是《生成扩散模型漫谈（一）：DDPM = 拆楼 + 建楼》中的通俗类比方案和《生成扩散模型漫谈（二）：DDPM = 自回归式VAE》中的变分自编码器方案。两种方案可谓各有特点，前者更为直白易懂，但无法做更多的理论延伸和定量理解，后者理论分析上更加完备一些，但稍显形式化，启发性不足。

贝叶斯定理（来自维基百科）

在这篇文章中，我们再分享DDPM的一种推导，它主要利用到了贝叶斯定理来简化计算，整个过程的“推敲”味道颇浓，很有启发性。不仅如此，它还跟我们后面将要介绍的DDIM模型有着紧密的联系。

模型绘景 #

再次回顾，DDPM建模的是如下变换流程：
$\begin{matrix} (1) & x = x_{0} ⇌ x_{1} ⇌ x_{2} ⇌ \dots ⇌ x_{T - 1} ⇌ x_{T} = z \end{matrix}$
其中，正向就是将样本数据 $x$ 逐渐变为随机噪声 $z$ 的过程，反向就是将随机噪声 $z$ 逐渐变为样本数据 $x$ 的过程，反向过程就是我们希望得到的“生成模型”。

正向过程很简单，每一步是
$\begin{matrix} (2) & x_{t} = α_{t} x_{t - 1} + β_{t} ε_{t}, ε_{t} \sim N (0, I) \end{matrix}$
或者写成 $p (x_{t} | x_{t - 1}) = N (x_{t}; α_{t} x_{t - 1}, β_{t}^{2} I)$ 。在约束 $α_{t}^{2} + β_{t}^{2} = 1$ 之下，我们有
$\begin{matrix} (3) & \begin{aligned} x_{t} = & α_{t} x_{t - 1} + β_{t} ε_{t} \\ = & α_{t} (α_{t - 1} x_{t - 2} + β_{t - 1} ε_{t - 1}) + β_{t} ε_{t} \\ = & \dots \\ = & (α_{t} \dots α_{1}) x_{0} + \underset{\sim N (0, (1 - α_{t}^{2} \dots α_{1}^{2}) I)}{\underset{⏟}{(α_{t} \dots α_{2}) β_{1} ε_{1} + (α_{t} \dots α_{3}) β_{2} ε_{2} + \dots + α_{t} β_{t - 1} ε_{t - 1} + β_{t} ε_{t}}} \end{aligned} \end{matrix}$
从而可以求出 $p (x_{t} | x_{0}) = N (x_{t}; {\bar{α}}_{t} x_{0}, {\bar{β}}_{t}^{2} I)$ ，其中 ${\bar{α}}_{t} = α_{1} \dots α_{t}$ ，而 ${\bar{β}}_{t} = \sqrt{1 - {\bar{α}}_{t}^{2}}$ 。

DDPM要做的事情，就是从上述信息中求出反向过程所需要的 $p (x_{t - 1} | x_{t})$ ，这样我们就能实现从任意一个 $x_{T} = z$ 出发，逐步采样出 $x_{T - 1}, x_{T - 2}, \dots, x_{1}$ ，最后得到随机生成的样本数据 $x_{0} = x$ 。

请贝叶斯 #

下面我们请出伟大的贝叶斯定理。事实上，直接根据贝叶斯定理我们有
$\begin{matrix} (4) & p (x_{t - 1} | x_{t}) = \frac{p (x_{t} | x_{t - 1}) p (x_{t - 1})}{p (x_{t})} \end{matrix}$
然而，我们并不知道 $p (x_{t - 1}), p (x_{t})$ 的表达式，所以此路不通。但我们可以退而求其次，在给定 $x_{0}$ 的条件下使用贝叶斯定理：
$\begin{matrix} (5) & p (x_{t - 1} | x_{t}, x_{0}) = \frac{p (x_{t} | x_{t - 1}) p (x_{t - 1} | x_{0})}{p (x_{t} | x_{0})} \end{matrix}$
这样修改自然是因为 $p (x_{t} | x_{t - 1}), p (x_{t - 1} | x_{0}), p (x_{t} | x_{0})$ 都是已知的，所以上式是可计算的，代入各自的表达式得到：
$\begin{matrix} (6) & p (x_{t - 1} | x_{t}, x_{0}) = N (x_{t - 1}; \frac{α_{t} {\bar{β}}_{t - 1}^{2}}{{\bar{β}}_{t}^{2}} x_{t} + \frac{{\bar{α}}_{t - 1} β_{t}^{2}}{{\bar{β}}_{t}^{2}} x_{0}, \frac{{\bar{β}}_{t - 1}^{2} β_{t}^{2}}{{\bar{β}}_{t}^{2}} I) \end{matrix}$

推导：上式的推导过程并不难，就是常规的展开整理而已，当然我们也可以找点技巧加快计算。首先，代入各自的表达式，可以发现指数部分除掉 $- 1 / 2$ 因子外，结果是：
$\begin{matrix} (7) & \frac{‖ x_{t} - α_{t} x_{t - 1} ‖^{2}}{β_{t}^{2}} + \frac{‖ x_{t - 1} - {\bar{α}}_{t - 1} x_{0} ‖^{2}}{{\bar{β}}_{t - 1}^{2}} - \frac{‖ x_{t} - {\bar{α}}_{t} x_{0} ‖^{2}}{{\bar{β}}_{t}^{2}} \end{matrix}$
它关于 $x_{t - 1}$ 是二次的，因此最终的分布必然也是正态分布，我们只需要求出其均值和协方差。不难看出，展开式中 $‖ x_{t - 1} ‖^{2}$ 项的系数是
$\begin{matrix} (8) & \frac{α_{t}^{2}}{β_{t}^{2}} + \frac{1}{{\bar{β}}_{t - 1}^{2}} = \frac{α_{t}^{2} {\bar{β}}_{t - 1}^{2} + β_{t}^{2}}{{\bar{β}}_{t - 1}^{2} β_{t}^{2}} = \frac{α_{t}^{2} (1 - {\bar{α}}_{t - 1}^{2}) + β_{t}^{2}}{{\bar{β}}_{t - 1}^{2} β_{t}^{2}} = \frac{1 - {\bar{α}}_{t}^{2}}{{\bar{β}}_{t - 1}^{2} β_{t}^{2}} = \frac{{\bar{β}}_{t}^{2}}{{\bar{β}}_{t - 1}^{2} β_{t}^{2}} \end{matrix}$
所以整理好的结果必然是 $\frac{{\bar{β}}_{t}^{2}}{{\bar{β}}_{t - 1}^{2} β_{t}^{2}} ‖ x_{t - 1} - \tilde{μ} (x_{t}, x_{0}) ‖^{2}$ 的形式，这意味着协方差矩阵是 $\frac{{\bar{β}}_{t - 1}^{2} β_{t}^{2}}{{\bar{β}}_{t}^{2}} I$ 。另一边，把一次项系数拿出来是 $- 2 (\frac{α_{t}}{β_{t}^{2}} x_{t} + \frac{{\bar{α}}_{t - 1}}{{\bar{β}}_{t - 1}^{2}} x_{0})$ ，除以 $\frac{- 2 {\bar{β}}_{t}^{2}}{{\bar{β}}_{t - 1}^{2} β_{t}^{2}}$ 后便可以得到
$\begin{matrix} (9) & \tilde{μ} (x_{t}, x_{0}) = \frac{α_{t} {\bar{β}}_{t - 1}^{2}}{{\bar{β}}_{t}^{2}} x_{t} + \frac{{\bar{α}}_{t - 1} β_{t}^{2}}{{\bar{β}}_{t}^{2}} x_{0} \end{matrix}$
这就得到了 $p (x_{t - 1} | x_{t}, x_{0})$ 的所有信息了，结果正是式 $(6)$ 。

去噪过程 #

现在我们得到了 $p (x_{t - 1} | x_{t}, x_{0})$ ，它有显式的解，但并非我们想要的最终答案，因为我们只想通过 $x_{t}$ 来预测 $x_{t - 1}$ ，而不能依赖 $x_{0}$ ， $x_{0}$ 是我们最终想要生成的结果。接下来，一个“异想天开”的想法是

如果我们能够通过 $x_{t}$ 来预测 $x_{0}$ ，那么不就可以消去 $p (x_{t - 1} | x_{t}, x_{0})$ 中的 $x_{0}$ ，使得它只依赖于 $x_{t}$ 了吗？

说干就干，我们用 $\bar{μ} (x_{t})$ 来预估 $x_{0}$ ，损失函数为 $‖ x_{0} - \bar{μ} (x_{t}) ‖^{2}$ 。训练完成后，我们就认为
$\begin{matrix} (10) & p (x_{t - 1} | x_{t}) \approx p (x_{t - 1} | x_{t}, x_{0} = \bar{μ} (x_{t})) = N (x_{t - 1}; \frac{α_{t} {\bar{β}}_{t - 1}^{2}}{{\bar{β}}_{t}^{2}} x_{t} + \frac{{\bar{α}}_{t - 1} β_{t}^{2}}{{\bar{β}}_{t}^{2}} \bar{μ} (x_{t}), \frac{{\bar{β}}_{t - 1}^{2} β_{t}^{2}}{{\bar{β}}_{t}^{2}} I) \end{matrix}$
在 $‖ x_{0} - \bar{μ} (x_{t}) ‖^{2}$ 中， $x_{0}$ 代表原始数据， $x_{t}$ 代表带噪数据，所以这实际上在训练一个去噪模型，这也就是DDPM的第一个“D”的含义（Denoising）。

具体来说， $p (x_{t} | x_{0}) = N (x_{t}; {\bar{α}}_{t} x_{0}, {\bar{β}}_{t}^{2} I)$ 意味着 $x_{t} = {\bar{α}}_{t} x_{0} + {\bar{β}}_{t} ε, ε \sim N (0, I)$ ，或者写成 $x_{0} = \frac{1}{{\bar{α}}_{t}} (x_{t} - {\bar{β}}_{t} ε)$ ，这启发我们将 $\bar{μ} (x_{t})$ 参数化为
$\begin{matrix} (11) & \bar{μ} (x_{t}) = \frac{1}{{\bar{α}}_{t}} (x_{t} - {\bar{β}}_{t} ϵ_{θ} (x_{t}, t)) \end{matrix}$
此时损失函数变为
$\begin{matrix} (12) & ‖ x_{0} - \bar{μ} (x_{t}) ‖^{2} = \frac{{\bar{β}}_{t}^{2}}{{\bar{α}}_{t}^{2}} {‖ ε - ϵ_{θ} ({\bar{α}}_{t} x_{0} + {\bar{β}}_{t} ε, t) ‖}^{2} \end{matrix}$
省去前面的系数，就得到DDPM原论文所用的损失函数了。可以发现，本文是直接得出了从 $x_{t}$ 到 $x_{0}$ 的去噪过程，而不是像之前两篇文章那样，通过 $x_{t}$ 到 $x_{t - 1}$ 的去噪过程再加上积分变换来推导，相比之下本文的推导可谓更加一步到位了。

另一边，我们将式 $(11)$ 代入到式 $(10)$ 中，化简得到
$\begin{matrix} (13) & p (x_{t - 1} | x_{t}) \approx p (x_{t - 1} | x_{t}, x_{0} = \bar{μ} (x_{t})) = N (x_{t - 1}; \frac{1}{α_{t}} (x_{t} - \frac{β_{t}^{2}}{{\bar{β}}_{t}} ϵ_{θ} (x_{t}, t)), \frac{{\bar{β}}_{t - 1}^{2} β_{t}^{2}}{{\bar{β}}_{t}^{2}} I) \end{matrix}$
这就是反向的采样过程所用的分布，连同采样过程所用的方差也一并确定下来了。至此，DDPM推导完毕～（提示：出于推导的流畅性考虑，本文的 $ϵ_{θ}$ 跟前两篇介绍不一样，反而跟DDPM原论文一致。）

推导：将式 $(11)$ 代入到式 $(10)$ 的主要化简难度就是计算
$\begin{matrix} (14) & \begin{aligned} \frac{α_{t} {\bar{β}}_{t - 1}^{2}}{{\bar{β}}_{t}^{2}} + \frac{{\bar{α}}_{t - 1} β_{t}^{2}}{{\bar{α}}_{t} {\bar{β}}_{t}^{2}} = & \frac{α_{t} {\bar{β}}_{t - 1}^{2} + β_{t}^{2} / α_{t}}{{\bar{β}}_{t}^{2}} = \frac{α_{t}^{2} (1 - {\bar{α}}_{t - 1}^{2}) + β_{t}^{2}}{α_{t} {\bar{β}}_{t}^{2}} = \frac{1 - {\bar{α}}_{t}^{2}}{α_{t} {\bar{β}}_{t}^{2}} = \frac{1}{α_{t}} \end{aligned} \end{matrix}$

预估修正 #

不知道读者有没有留意到一个有趣的地方：我们要做的事情，就是想将 $x_{T}$ 慢慢地变为 $x_{0}$ ，而我们在借用 $p (x_{t - 1} | x_{t}, x_{0})$ 近似 $p (x_{t - 1} | x_{t})$ 时，却包含了“用 $\bar{μ} (x_{t})$ 来预估 $x_{0}$ ”这一步，要是能预估准的话，那就直接一步到位了，还需要逐步采样吗？

真实情况是，“用 $\bar{μ} (x_{t})$ 来预估 $x_{0}$ ”当然不会太准的，至少开始的相当多步内不会太准。它仅仅起到了一个前瞻性的预估作用，然后我们只用 $p (x_{t - 1} | x_{t})$ 来推进一小步，这就是很多数值算法中的“预估-修正”思想，即我们用一个粗糙的解往前推很多步，然后利用这个粗糙的结果将最终结果推进一小步，以此来逐步获得更为精细的解。

由此我们还可以联想到Hinton三年前提出的《Lookahead Optimizer: k steps forward, 1 step back》，它同样也包含了预估（k steps forward）和修正（1 step back）两部分，原论文将其诠释为“快（Fast）-慢（Slow）”权重的相互结合，快权重就是预估得到的结果，慢权重则是基于预估所做的修正结果。如果愿意，我们也可以用同样的方式去诠释DDPM的“预估-修正”过程～

遗留问题 #

最后，在使用贝叶斯定理一节中，我们说式 $(4)$ 没法直接用的原因是 $p (x_{t - 1})$ 和 $p (x_{t})$ 均不知道。因为根据定义，我们有
$\begin{matrix} (15) & p (x_{t}) = \int p (x_{t} | x_{0}) \tilde{p} (x_{0}) d x_{0} \end{matrix}$
其中 $p (x_{t} | x_{0})$ 是知道的，而数据分布 $\tilde{p} (x_{0})$ 无法提前预知，所以不能进行计算。不过，有两个特殊的例子，是可以直接将两者算出来的，这里我们也补充计算一下，其结果也正好是上一篇文章遗留的方差选取问题的答案。

第一个例子是整个数据集只有一个样本，不失一般性，假设该样本为 $0$ ，此时 $\tilde{p} (x_{0})$ 为狄拉克分布 $δ (x_{0})$ ，可以直接算出 $p (x_{t}) = p (x_{t} | 0)$ 。继而代入式 $(4)$ ，可以发现结果正好是 $p (x_{t - 1} | x_{t}, x_{0})$ 取 $x_{0} = 0$ 的特例，即
$\begin{matrix} (16) & p (x_{t - 1} | x_{t}) = p (x_{t - 1} | x_{t}, x_{0} = 0) = N (x_{t - 1}; \frac{α_{t} {\bar{β}}_{t - 1}^{2}}{{\bar{β}}_{t}^{2}} x_{t}, \frac{{\bar{β}}_{t - 1}^{2} β_{t}^{2}}{{\bar{β}}_{t}^{2}} I) \end{matrix}$
我们主要关心其方差为 $\frac{{\bar{β}}_{t - 1}^{2} β_{t}^{2}}{{\bar{β}}_{t}^{2}}$ ，这便是采样方差的选择之一。

第二个例子是数据集服从标准正态分布，即 $\tilde{p} (x_{0}) = N (x_{0}; 0, I)$ 。前面我们说了 $p (x_{t} | x_{0}) = N (x_{t}; {\bar{α}}_{t} x_{0}, {\bar{β}}_{t}^{2} I)$ 意味着 $x_{t} = {\bar{α}}_{t} x_{0} + {\bar{β}}_{t} ε, ε \sim N (0, I)$ ，而此时根据假设还有 $x_{0} \sim N (0, I)$ ，所以由正态分布的叠加性， $x_{t}$ 正好也服从标准正态分布。将标准正态分布的概率密度代入式 $(4)$ 后，结果的指数部分除掉 $- 1 / 2$ 因子外，结果是：
$\begin{matrix} (17) & \frac{‖ x_{t} - α_{t} x_{t - 1} ‖^{2}}{β_{t}^{2}} + ‖ x_{t - 1} ‖^{2} - ‖ x_{t} ‖^{2} \end{matrix}$
跟推导 $p (x_{t - 1} | x_{t}, x_{0})$ 的过程类似，可以得到上述指数对应于
$\begin{matrix} (18) & p (x_{t - 1} | x_{t}) = N (x_{t - 1}; α_{t} x_{t}, β_{t}^{2} I) \end{matrix}$
我们同样主要关心其方差为 $β_{t}^{2}$ ，这便是采样方差的另一个选择。