关于diffusion model一些统计和数学的基础知识

likelihood-based models,通过(近似)最大似然直接学习分布的probability density(或mass)函数。典型的基于似然的模型包括自回归模型、归一化流模型、基于能量的模型(EBMs)和变分自编码器(VAEs)。

概率质量函数(Probability Mass Function,PMF):概率质量函数用于描述离散随机变量的概率分布。它给出了随机变量取每个可能取值的概率。具体来说,对于一个离散随机变量 X,其概率质量函数可以表示为 P(X = x),其中 x 表示随机变量可能取的每一个离散值。

概率密度函数(Probability Density Function,PDF):概率密度函数用于描述连续随机变量的概率分布。与概率质量函数不同,概率密度函数并不直接给出随机变量取某个特定值的概率,而是给出了随机变量在某个区间内取值的可能性大小

Score function (the vector field) and density function (contours) of a mixture of two Gaussians

Generative model

我们首先需要表示概率分布在生成建模中,通过建模概率分布,我们可以生成与数据集中观察到的相似的新数据点。这对于数据合成、异常检测和数据生成等任务至关重要。

在基于似然的模型中,表示概率函数(无论是作为概率密度函数还是概率质量函数)允许我们从数据中学习模型的参数。通过参数化概率函数,我们可以捕捉数据分布的特征,并用它来生成新的样本。

例如:设 \(f_\theta(X) \in \mathbb{R}\) 为可由可学习参数\(\theta\)参数化的实值函数。 然后我们可以定义概率密度函数为:

\[p_\theta(X) = \frac{e^{-f_\theta{(X)}}}{Z_\theta} \]

  1. \(Z_\theta\) 是一个归一化常数,它与参数\(\theta\) 相关,所以使得概率密度函数$ p_\theta(X)$成为一个有效的概率密度函数。也就是说,对于任意给定的 \(\theta\),概率密度函数的所有可能取值的总和或积分必须等于1。这种归一化常数通常用于确保概率密度函数满足概率的性质,例如总和或积分为1。
  2. 未归一化概率模型\(f_\theta\), 也被称为 energy-based model. 这意味着它是一个函数,其中的值并不保证总和或积分为1。通常情况下,这样的模型可能更容易进行建模和训练,但是在计算概率时需要额外的步骤来确保总和或积分为1。
  3. 最大似然训练:文中提到可以通过最大化数据的对数似然来训练概率模型。这意味着我们试图找到参数 \(\theta\) 的最优值,使得模型产生观察数据的概率最大化。最大似然估计是一种常见的参数估计方法,用于从观察数据中找到最有可能的模型参数。

\(q(X_1|X_{0})*q(X_{2}|X_{1})...q(X_t|X_{t-1})\)

posted @ 2024-05-05 15:16  kingchou007  阅读(39)  评论(0编辑  收藏  举报