自信息(self-information): I(x)=−logp(x) ,其中约定 I(x)=0 if p(x)=0 ,以自然常数为底的对数时,信息单位为奈特(nats),以2为底时单位为比特(bits)。
熵是自信息的期望。
信息熵(香侬熵,entropy):
H(p(X))=EI(X)=∑x∈X−p(x)logp(x)
p(X)=0 时 p(X)logp(X) 未定义,但可取其极限作为扩展函数值, limp(X)→0+p(X)logp(X)=0 。对数函数底数可为其他数,如自然常数E。值域: 0≤H(p)≤log|X| , |X| 为x的取值个数。
信息熵度量分布凌乱程度、变量不确定性,分布越稀疏、零散,值越高, p(xi)=1|X| ,即服从均匀分布时熵最大,为 log|X| 。
Proof of limx→0xlnx=0 : (洛必达法则)
limx→0+xlnx=limx→0+lnx1x=limx→0+1x−1x2=limx→0+−x=0
联合熵(joint entropy) X,Y∼P(X,Y) :
H(X,Y)=−∑x∈X,y∈Yp(x,y)logp(x,y)=∑x∈X,y∈Yp(x,y)log1p(x,y)=E(X,Y)[I(X,Y)]
条件熵:
H(X|Y):=∑y∈Yp(y)H(X|Y=y)=−∑yp(y)∑xp(x|y)logp(x|y)=−∑x,yp(x,y)logp(x|y)=−∑x,yp(x,y)logp(x,y)p(y)=E(X,Y)[I(X|Y)]H(X|Y)=H(X,Y)−H(Y)
The chain rule for conditional entropies and joint entropy:
H(X1,X2,…,Xn)=n∑i=1H(Xi|X1,X2,…,Xi−1)=H(X1)+H(X2|X1)+H(X3|X1,X2)+⋯+H(Xn|X1,X2,…,Xn−1)
交叉熵(cross entropy):
H(p,q)=−∑xp(x)logq(x)=∑xp(x)log1q(x)=Ex∼p(x)[log1q(x)]=−Ex∼p[logq(x)]=H(p)+KL(p||q)
用于度量x的真实分布p(x)与模型分布q(x)之间的差异性,一般地模型q(x)想要拟合到p(x)。
互信息(Mutual Information, MI),用来衡量两个随机变量的联合分布和独立分布之间的关系。互信息是点互信息的数学期望。
++互信息++(mutual information), X,Y∼p(x,y) :
I(X;Y)=∑x,yp(x,y)logp(x,y)p(x)p(y)=∑x,yp(x,y)logp(x|y)p(x)=∑x,yp(x,y)logp(y|x)p(y)=∑x,yp(x,y)PMI(x;y)=E(x,y)[PMI(x;y)]
点互信息(Pointwise Mutual Information, Point Mutual Information, PMI):
PMI(x;y)=logp(x|y)p(x)=logp(y|x)p(y)=logp(x,y)p(x)p(y)
Equivalent definitions:
I(X;Y)=I(Y;X)=H(X)−H(X|Y)=H(Y)−H(Y|X)=H(X)+H(Y)−H(Y,Y)=H(H,Y)−H(X|Y)−H(Y|X)
Values of PMI range over:
−∞≤PMI(x;y)≤min[−logp(x),−logp(y)]
The PMI may be positive, negative or zero, but the MI should be positive.
KL散度(Kullback Leibler, KL divergence,相对熵 relative entropy)(又叫KL距离,但并非真的距离因其++不满足对称性和三角形法则++),常用来衡量两个概率分布的不相似程度(差距),非对称度量, KL(p||q)≢KL(q||p) 。通信领域中KL散度是用来 度量使用基于Q的编码来编码来自P的样本平均所需的额外的位元数。一般其中一个是真实分布,另一个是理论分布。
KL散度(KL Divergence):
KL(p||q)=−∑xp(x)logq(x)p(x)=∑xp(x)logp(x)q(x)
约定 plogqp=0, when p=0;plogqp=−∞, when p≠0,q=0 。
q∗=argminqKL(p||q) 是找出近似分布q在真实分布p高概率处放置高概率,当p有多峰时,q可能模糊多峰,只选择一个峰。 q∗=argminqKL(q||p) 是使得q在分布p的低概率地方放置低概率。
JS散度(Jensen-Shannon Divergence):
JS(P1||P2)=12KL(P1||P1+P22)+12KL(P2||P1+P22)
JS散度对称(symmetrized)、平滑(smoothed)。
一般地,JS散度解决了KL散度的不对称问题,值在0到1( log22 )之间,底数为e时上届为 ln2 。
如果分布P、Q差异很大,甚至完全没有重叠,那么KL散度无意义,JS散度是常数。在学习算法中将导致梯度为0,进而造成梯度消失。
Wasserstein distance:
The p -th Wassertein distance:
Wp(μ,ν):=[infγ∈Γ(μ,ν)E(X,Y)∼γ[cp(X,Y)]]1p=[infγ∈Γ(μ,ν)∫M×Mcp(x,y)dγ(x,y)]1p=[infγ∈Γ(μ,ν)∫M∫Mcp(x,y)γ(x,y)dxdy]1p=[∫10cp(F−1(z),G−1(z))dz]1p
where Γ(μ,ν) is the set of all joint probability distributions on M×M whose marginals are μ and ν on the first and the second factors respectively, i.e. ∫γ(x,y)dy=μ(x),∫γ(x,y)dx=ν(y) , and c(x,y) denotes distance between points x and y (cost of moving x to y ), and M is the domain, and F−1(⋅),G−1(⋅) are the inverse functions of the cumulative density functions of μ,ν respectively (or F−1,G−1 are respectively the quantile functions of μ,ν ).
As a special case with p=1 , it is the Earth mover's distance (EMD):
W(μ,ν):=[infγ∈Γ(μ,ν)∫R×Rd(x,y)dγ(x,y)]
Wassertein distance vs. KL devergence:

References:
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· 【自荐】一款简洁、开源的在线白板工具 Drawnix