Diffusion系列-预备知识I -(一)

预备知识

范数

范数是一种函数,用来度量向量的大小1。在机器学习、信号处理等领域中,范数常常被用作正则化方法,通过对参数向量的范数进行约束,达到控制模型复杂度、防止过拟合等目的。常见的范数有0范数、1范数、2范数、无穷范数 等,其中0范数表示向量中非零元素的个数,1范数表示为绝对值之和,2范数则指模,无穷范数被用来度量向量元素的最大值。

L0范数

向量 x 中非零元素的个数:

x0=ni=11xi0

L1范数

向量x中非零元素的绝对值之和。L1范数有很多的名字,例如我们熟悉的 曼哈顿距离、最小绝对误差等。
绝对误差和公式:

x1=ni=1|ˆxixi|

由于L1范数的天然性质,对L1优化的解是一个稀疏解, 因此L1范数也被叫做稀疏规则算子。

L2范数

L2范数是我们最常见最常用的范数了,我们用的最多的度量距离欧氏距离就是一种L2范数。
平方差和公式:

x2=ni=1(ˆxixi)2

L无穷范数

度量向量元素的最大值

x=max(|xi|)

联合概率链式法则

P(A1A2An)=P(A1)×P(A2A1)×P(AnA1An1)
P(X1X2Xn)=P(X1)P(X2|X1)P(Xn|X<n)

P(A1A2) 表示事件A1A2同时发生。
P(X1X2) 表示样本X1X2同时出现。

贝叶斯公式

贝叶斯公式用来描述两个条件概率之间的关系,比如 P(A|B) 和 P(B|A)。按照乘法法则,P(AB)=P(A)·P(B|A)=P(B)·P(A|B),可以立刻导出贝叶斯定理
P(A|B)=P(BA)P(B)=P(B|A)P(A)P(B)
“∣”读作given,即给定的意思。如 P(A∣B) 即 A given B

先验 后验 似然

  • =P()=P(θ) 结果发生前, 就开始猜测(估计)原因, Prior
  • =P(|)=P(θ|X) 已知结果,然后根据结果估计原因,Posterior
  • =P(|)=P(X|θ) 先给定原因,根据原因来估计结果的概率分布,Likelihood
  • =P()=P(X) 出现结果的概率,特别强调 这里的结果 反映的是在没有任何额外信息(即不知道结果)的情况下,出现结果的概率 Evidence

这里的因果只表示事件,不表示严格的因果推断。

Posterior=JointEvidence=LikelihoodPriorEvidence

更直观一点的理解:
A:小明中午吃火锅。 B:小明晚上拉肚子。
已知 A的出现 有利于 B的出现,则有 B的出现 也有利于 A的出现。
P(B|A)>P(B),P(A|B)>P(A)
P(A|B)=P(B|A)P(B)P(A)>P(A)

似然估计

似然函数如下:
L(θ|x)=p(x|θ)
更严格地,也可写成 L(θ|x)=p(x;θ)

似然性(likelihood)与概率(possibility)同样可以表示事件发生的可能性大小,但是二者有着很大的区别:

概率

  • 是在已知参数 θ 的情况下,发生观测结果 x 可能性大小;

似然性

  • 则是从观测结果 x 出发,分布函数的参数为θ的可能性大小;

若 已知 x,未知 θ,对于两个参数 θ1,θ2p(x|θ1)>p(x|θ2)

L(θ1|x)>L(θ2|x)

最大似然估计

最大似然估计方法(Maximum Likelihood Estimate,MLE)

最大似然估计的思想在于,对于给定的观测数据 x,我们希望能从所有的参数
θ1,θ2,...,θn 中找出能最大概率生成观测数据的参数 θ作为估计结果。

L(θ|x)L(θ|x),θ=θ1,...,θn

p(x|θ)p(x|θ)

最大化概率函数的参数即可:

θ=argmaxθ(p|θ)

离散型随机变量的最大似然估计

离散型随机变量X的分布律为P{X=x}=p(x;θ),设X1,...,Xn为来自X的样本,x1,...,xn为相应的观察值,为待估参数。在参数θ下,分布函数随机取到x1,...,xn的概率为p(x|θ)=ni=1p(xi;θ), 其中π的大写,表示累乘。
通过似然函数 L(θ|x)=p(x|θ)=ni=1p(xi;θ)

此时 L(θ|x) 是一个关于θ的函数,寻找生成x的最大概率, 导数等于0时,取得极值:
ddθL(θ|x)=0
因为ni=1p(xi;θ)是累乘形式,由复合函数的单调性,对原函数取对数:
ddθlnL(θ|x)=1/L(θ|x)ddθL(θ|x)=0

马尔科夫链条件概率

条件概率 P(C,B,A)=P(C|B,A)P(B,A)=P(C|B,A)P(B|A)P(A)
马尔可夫链指当前状态的概率【只】与上一时刻有关,所以事件A对事件C的概率没有影响,即 P(C|B)=P(C|B,A)。有

P(C,B,A)=P(C|B)P(B|A)P(A)

联合分布与边缘分布

二维随机变量ξ=(X,Y)(X,Y)的联合分布:

P((X,Y)=(xi,yj))=pij

ijpij=1,pij0

分量X的概率分布称为联合分布(X,Y)关于X的边缘分布;

P(X=xi)=jpij

分量Y的概率分布称为联合分布(X,Y)关于Y的边缘分布。

P(Y=yj)=ipij

由联合分布可以推出边缘分布,但反之一般不可以,这是因为随机向量的分量之间可能有相关性。

绿色为联合分布,蓝色和红色分别为 X、Y 的边缘分布

关于其中一个特定变量的边缘分布则视为给定其他变量的条件概率分布:

P(x)=yP(x,y)=yP(x|y)P(y)

在边缘分布中,我们得到只关于一个变量的概率分布,而不再考虑另一变量的影响,实际上进行了降维操作。

连续型情形下,关于X的概率密度函数为:

fX(x)=+f(x,y)dy

Wilks 不等式
设随机变量(X1,X2,,Xn)的联合概率分布函数为F(x1,x2,,xn),关于各变元的边缘分布函数是Fi(xi)那么有如下不等式成立

F(x1,x2,,xn)(ni=1Fi(xi))1n

https://www.math.pku.edu.cn/teachers/xirb/Courses/statprobB/psbd04.pdf

KL散度(Kullback-Leibler divergence)

KL散度是两个概率分布PQ差别的非对称性的度量。 KL散度是用来度量使用基于Q的分布来编码服从P的分布的样本所需的额外的平均比特数。典型情况下,P表示数据的真实分布,Q表示数据的理论分布。

KL散度的定义:
KL(P||Q)=p(x)logp(x)q(x)

P为已知的真实分布,Q为近似分布。
(a). KL(Q||P) (b). KL(P||Q)

凸函数f: 直观理解,凸函数的图像形如开口向上的杯
∪,而相反,凹函数则形如开口向下的帽 ∩。
二阶导数在区间上大于等于零,就称为凸函数。例如,y=x2

概率论中, 有延森不等式: f(E(X))E(f(X))
这里把 E(X)想象成x1+x22,则
E(f(X))=f(x1)+f(x2)2E(f(X))=f(x1)+f(x2)2

吉布斯不等式:

KL(P||Q)=xp(x)logp(x)q(x)=xp(x)logq(x)p(x)=E[logq(x)p(x)]log[E(q(x)p(x))]=log[xp(x)q(x)p(x)]=log[xq(x)]=log1=0KL(P||Q)0

概率分布的熵 (H) 的定义是:
H[x]=xp(x)log(p(x))

KL散度与交叉熵

KL(P||Q)=xp(x)logp(x)q(x)=xp(x)log(p(x))xp(x)log(q(x))=H[P]+H(P,Q)

H(P,Q) 称作P和Q的交叉熵(cross entropy), KL散度不具备对称性,也就是说 P对于Q 的KL散度并不等于 Q 对于 P 的KL散度。

在信息论中,熵代表着信息量,H(P) 代表着基于 P 分布自身的编码长度,也就是最优的编码长度(最小字节数)。而H(P,Q) 则代表着用 P 的分布去近似 Q 分布的信息,自然需要更多的编码长度。并且两个分布差异越大,需要的编码长度越大。所以两个值相减是大于等于0的一个值,代表冗余的编码长度,也就是两个分布差异的程度。所以KL散度在信息论中还可以称为相对熵(relative entropy)。

KL散度与交叉熵的应用

  • 交叉熵通常用于监督学习任务中,如分类和回归等。在这些任务中,我们有一组输入样本和相应的标签。我们希望训练一个模型,使得模型能够将输入样本映射到正确的标签上。
  • KL散度通常用于无监督学习任务中,如聚类、降维和生成模型等。在这些任务中,我们没有相应的标签信息,因此无法使用交叉熵来评估模型的性能,所以需要一种方法来衡量模型预测的分布和真实分布之间的差异,这时就可以使用KL散度来衡量模型预测的分布和真实分布之间的差异。

总结:有真实分布可以用交叉熵,没有就用KL散度。

高斯分布

一维:XN(μ,σ2),其概率密度函数为:

p(x)=12πσ2exp(12(xμσ)2)=12πσ2exp[12σ2(x22μx+μ2)]

μ 加权平均值(期望) E(X)=ip(xi)xi
σ2 方差(variance) Var(X)=E[(Xμ)2]=E[X2]E[x]2

期望方差的积分形式:
μ=E(x)=p(x)xdx
σ2=E[(xμ)2]=p(x)(xμ)2dx

期望 E[x] 的另一个叫法是分布函数的 一阶矩,而 E[x2] 也叫 二阶矩 。
σ2=E[(Xμ)2]=E[X2]E[x]2 ,有 E[x2]=μ2+σ2

【协方差 Covariance】

用于度量两组数据的变量X和Y之间是否有线性相关性,=0不相关,>0正相关,<0负相关
cov(X,Y)=E[(XE(X))(YE(Y))]=E[(XμX)(YμY)]
cov(X,Y)=cov(Y,X)
cov(aX,bY)=abcov(Y,X)

【协方差矩阵】

有 n 个随机变量组成一个 n维向量 X={X1,X2,,Xn}

Σ=cov(X,XT):=[cov(x1,x1)cov(x1,xn)cov(x1,xn)cov(xn,xn)]

【相关系数】

用于度量两组数据的变量X和Y之间的线性相关的程度。它是两个变量的协方差与其标准差的乘积之比。
ρX,Y=cov(X,Y)σXσY=E[(XμX)(YμY)]σXσY
cov(X,Y)=ρσXσY

皮尔逊相关系数的变化范围为-1到1。系数的值为1意味着X和 Y可以很好的由直线方程来描述,所有的数据点都很好的落在一条直线上,且 Y 随着 X 的增加而增加。系数的值为−1意味着所有的数据点都落在直线上,且 Y 随着 X 的增加而减少。系数的值为0意味着两个变量之间没有线性关系。

特殊的,X自己和自己的协方差 cov(X,X)=σ2X,相关系数 ρX,X=1
若 X 和 Y 相互独立(线性不相关),cov(X,Y)=0ρX,Y=0

k维:p(x)=1(2π)k|Σ|exp(12(xμ)TΣ1(xμ))

Σi,j=cov(i,j)=E[(Xiμi)(Xjμj)]

【封闭性】

数学中,若对某个集合的成员进行一种运算,生成的元素仍然是这个集合的成员,则该集合被称为在这个运算下闭合。

高斯分布的随机变量 线性组合 还是高斯分布:
(1)如果XN(μ,σ2), a 与 b 是实数,那么aX+bN(aμ+b,(aσ)2)
(2)XN(μ1,σ21), YN(μ2,σ22)X,Y是统计独立的随机变量,它们的和也服从高斯分布:

X+YN(μ1+μ2,σ21+σ22)

XYN(μ1μ2,σ21+σ22)

(3)Product: if p(x) and p(z) are Gaussian, then p(x)p(z) is proportional to a Gaussian
(4)Marginalization: if p(x, z) is Gaussian, then p(x) is Gaussian.
(5)Conditioning: if p(x, z) is Gaussian, then p(x | z) is Gaussian.

注:分布的等式两边不能移项,重参数化后可以。

高斯分布的KL散度

高斯分布 XN(μ,σ2),p(x)=12πσ2exp(12(xμσ)2)

KL(N(μ1,σ21)||N(μ2,σ22))=(2πσ21)1/2exp(12(xμ1σ1)2)log(2πσ21)1/2exp(12(xμ1σ1)2)(2πσ22)1/2exp(12(xμ2σ2)2)dxlog拆项,log与exp抵消=(2πσ21)1/2exp(12(xμ1σ1)2)[logσ2σ112(xμ1σ1)2+12(xμ2σ2)2]dxN(μ1,σ21)p1(x)=p1(x)[logσ2σ112(xμ1σ1)2+12(xμ2σ2)2]dx

分部积分:
(1) 高斯分布积分等于1:

logσ2σ1p1(x)dx=logσ2σ1

(2)根据方差积分形式 σ2=p(x)(xμ)2dx

p1(x)[12(xμ1σ1)2]dx=12σ21p1(x)(xμ1)2dx=12σ21σ21=12

(3)中括号展开分别是 二阶矩、均值、常数

p1(x)[12(xμ2σ2)2]dx=12σ22{p1(x)x2dx2μ2p1(x)xdx+μ22p1(x)dx}=12σ22(σ21+μ212μ1μ2+μ22)=σ21+(μ1μ2)22σ22

最终结果

KL(N(μ1,σ21)||N(μ2,σ22))=12[logσ22σ211+σ21+(μ1μ2)2σ22]

特殊的

KL(N(μ,σ2)||N(0,1))=12[logσ21+μ2+σ2]

k维高斯分布的KL散度:

KL(N(μ1,σ21)||N(μ2,σ22))=12[log|Σ2||Σ1|k+tr(Σ12Σ1)+(μ1μ2)TΣ12(μ1μ2)]

其中 k 为 维度

参考文章:
高斯分布的积分期望E(X)方差V(X)的理论推导
高斯分布的KL散度

posted @   gaobowen  阅读(57)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· AI编程工具终极对决:字节Trae VS Cursor,谁才是开发者新宠?
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
点击右上角即可分享
微信分享提示