关于diffusion model一些统计和数学的基础知识
likelihood-based models,通过(近似)最大似然直接学习分布的probability density(或mass)函数。典型的基于似然的模型包括自回归模型、归一化流模型、基于能量的模型(EBMs)和变分自编码器(VAEs)。
概率质量函数(Probability Mass Function,PMF):概率质量函数用于描述离散随机变量的概率分布。它给出了随机变量取每个可能取值的概率。具体来说,对于一个离散随机变量 X,其概率质量函数可以表示为 P(X = x),其中 x 表示随机变量可能取的每一个离散值。
概率密度函数(Probability Density Function,PDF):概率密度函数用于描述连续随机变量的概率分布。与概率质量函数不同,概率密度函数并不直接给出随机变量取某个特定值的概率,而是给出了随机变量在某个区间内取值的可能性大小。

Generative model
我们首先需要表示概率分布在生成建模中,通过建模概率分布,我们可以生成与数据集中观察到的相似的新数据点。这对于数据合成、异常检测和数据生成等任务至关重要。
在基于似然的模型中,表示概率函数(无论是作为概率密度函数还是概率质量函数)允许我们从数据中学习模型的参数。通过参数化概率函数,我们可以捕捉数据分布的特征,并用它来生成新的样本。
例如:设
是一个归一化常数,它与参数 相关,所以使得概率密度函数 成为一个有效的概率密度函数。也就是说,对于任意给定的 ,概率密度函数的所有可能取值的总和或积分必须等于1。这种归一化常数通常用于确保概率密度函数满足概率的性质,例如总和或积分为1。- 未归一化概率模型
, 也被称为 energy-based model. 这意味着它是一个函数,其中的值并不保证总和或积分为1。通常情况下,这样的模型可能更容易进行建模和训练,但是在计算概率时需要额外的步骤来确保总和或积分为1。 - 最大似然训练:文中提到可以通过最大化数据的对数似然来训练概率模型。这意味着我们试图找到参数
的最优值,使得模型产生观察数据的概率最大化。最大似然估计是一种常见的参数估计方法,用于从观察数据中找到最有可能的模型参数。
本文作者:Kane,转载请注明原文链接:https://www.cnblogs.com/hackerk/p/18173506
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律