Information Theory 信息论

香侬信息论 Shannon Information Theory

自信息(self-information): I(x)=logp(x) ,其中约定 I(x)=0 if p(x)=0 ,以自然常数为底的对数时,信息单位为奈特(nats),以2为底时单位为比特(bits)。

熵是自信息的期望。

信息熵(香侬熵,entropy):

H(p(X))=EI(X)=xXp(x)logp(x)

p(X)=0p(X)logp(X) 未定义,但可取其极限作为扩展函数值, limp(X)0+p(X)logp(X)=0 。对数函数底数可为其他数,如自然常数E。值域: 0H(p)log|X||X| 为x的取值个数。

信息熵度量分布凌乱程度、变量不确定性,分布越稀疏、零散,值越高, p(xi)=1|X| ,即服从均匀分布时熵最大,为 log|X|

Proof of limx0xlnx=0 : (洛必达法则)

limx0+xlnx=limx0+lnx1x=limx0+1x1x2=limx0+x=0

联合熵(joint entropy) X,YP(X,Y)

H(X,Y)=xX,yYp(x,y)logp(x,y)=xX,yYp(x,y)log1p(x,y)=E(X,Y)[I(X,Y)]

条件熵

H(X|Y):=yYp(y)H(X|Y=y)=yp(y)xp(x|y)logp(x|y)=x,yp(x,y)logp(x|y)=x,yp(x,y)logp(x,y)p(y)=E(X,Y)[I(X|Y)]H(X|Y)=H(X,Y)H(Y)

The chain rule for conditional entropies and joint entropy:

H(X1,X2,,Xn)=i=1nH(Xi|X1,X2,,Xi1)=H(X1)+H(X2|X1)+H(X3|X1,X2)++H(Xn|X1,X2,,Xn1)

交叉熵(cross entropy):

H(p,q)=xp(x)logq(x)=xp(x)log1q(x)=Exp(x)[log1q(x)]=Exp[logq(x)]=H(p)+KL(p||q)

用于度量x的真实分布p(x)与模型分布q(x)之间的差异性,一般地模型q(x)想要拟合到p(x)。

互信息(Mutual Information, MI),用来衡量两个随机变量的联合分布和独立分布之间的关系。互信息是点互信息的数学期望。

++互信息++(mutual information), X,Yp(x,y)

I(X;Y)=x,yp(x,y)logp(x,y)p(x)p(y)=x,yp(x,y)logp(x|y)p(x)=x,yp(x,y)logp(y|x)p(y)=x,yp(x,y)PMI(x;y)=E(x,y)[PMI(x;y)]

点互信息(Pointwise Mutual Information, Point Mutual Information, PMI):

PMI(x;y)=logp(x|y)p(x)=logp(y|x)p(y)=logp(x,y)p(x)p(y)

Equivalent definitions:

I(X;Y)=I(Y;X)=H(X)H(X|Y)=H(Y)H(Y|X)=H(X)+H(Y)H(Y,Y)=H(H,Y)H(X|Y)H(Y|X)

Values of PMI range over:

PMI(x;y)min[logp(x),logp(y)]

The PMI may be positive, negative or zero, but the MI should be positive.

KL散度(Kullback Leibler, KL divergence,相对熵 relative entropy)(又叫KL距离,但并非真的距离因其++不满足对称性和三角形法则++),常用来衡量两个概率分布的不相似程度(差距),非对称度量, KL(p||q)KL(q||p) 。通信领域中KL散度是用来 度量使用基于Q的编码来编码来自P的样本平均所需的额外的位元数。一般其中一个是真实分布,另一个是理论分布。

KL散度(KL Divergence):

KL(p||q)=xp(x)logq(x)p(x)=xp(x)logp(x)q(x)

约定 plogqp=0, when p=0;plogqp=, when p0,q=0

q=argminqKL(p||q) 是找出近似分布q在真实分布p高概率处放置高概率,当p有多峰时,q可能模糊多峰,只选择一个峰。 q=argminqKL(q||p) 是使得q在分布p的低概率地方放置低概率。

JS散度(Jensen-Shannon Divergence):

JS(P1||P2)=12KL(P1||P1+P22)+12KL(P2||P1+P22)

JS散度对称(symmetrized)、平滑(smoothed)。

一般地,JS散度解决了KL散度的不对称问题,值在0到1( log22 )之间,底数为e时上届为 ln2

如果分布P、Q差异很大,甚至完全没有重叠,那么KL散度无意义,JS散度是常数。在学习算法中将导致梯度为0,进而造成梯度消失。

Wasserstein distance

The p -th Wassertein distance:

Wp(μ,ν):=[infγΓ(μ,ν)E(X,Y)γ[cp(X,Y)]]1p=[infγΓ(μ,ν)M×Mcp(x,y)dγ(x,y)]1p=[infγΓ(μ,ν)MMcp(x,y)γ(x,y)dxdy]1p=[01cp(F1(z),G1(z))dz]1p

where Γ(μ,ν) is the set of all joint probability distributions on M×M whose marginals are μ and ν on the first and the second factors respectively, i.e. γ(x,y)dy=μ(x),γ(x,y)dx=ν(y) , and c(x,y) denotes distance between points x and y (cost of moving x to y ), and M is the domain, and F1(),G1() are the inverse functions of the cumulative density functions of μ,ν respectively (or F1,G1 are respectively the quantile functions of μ,ν ).

As a special case with p=1 , it is the Earth mover's distance (EMD):

W(μ,ν):=[infγΓ(μ,ν)R×Rd(x,y)dγ(x,y)]

Wassertein distance vs. KL devergence:
Wassertein vs. KL divergence

References:

posted @   二球悬铃木  阅读(111)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
点击右上角即可分享
微信分享提示