Entropy, relative entropy and mutual information.
Entropy
H(X)=−∑xp(x)logp(x),
熵非负, 且当且仅当X确定性的时候为有最小值0, 即P(X=x0)=1.
Proof:
由log的凹性可得
H(X)=−∑xp(x)logp(x)=∑xp(x)log1p(x)≥log1=0.
Joint Entropy
H(X,Y):=−Ep(x,y)[logp(x,y)]=∑x∈X∑y∈Yp(x,y)logp(x,y).
Conditional Entropy
H(Y|X)=−Ep(x)[H(Y|X=x)]=−∑x∈Xp(x)H(Y|X=x)=−∑x∈X∑y∈Yp(x)p(y|x)logp(y|x)=−∑x∈X∑y∈Yp(x,y)logp(y|x).
注意 H(Y|X) 和 H(Y|X=x) 的区别.
Chain rule
H(X,Y)=H(X)+H(Y|X).
proof:
根据p(y|x)=p(x,y)p(x)以及上面的推导可知:
H(Y|X)=H(X,Y)+∑x∈X∑y∈Yp(x,y)logp(x)=H(X,Y)−H(X).
推论:
H(X,Y|Z)=H(X|Z)+H(Y|X,Z).
H(Y|X,Z)=Ex,z[H(Y|x,z)]=−∑x,zp(x,z)p(y|x,z)logp(y|x,z)=−∑x,zp(x,y,z)[logp(x,y|z)−logp(x|z)]=EzH(X,Y|z)−EzH(X|z)=H(X,Y|Z)−H(X|Z).
I(X;Y)=H(X)−H(X|Y)=∑x∈X∑y∈Yp(x,y)logp(x,y)p(x)p(y)
Relative Entropy
D(p∥q):=Ep(logp(x)q(x))=∑x∈Xp(x)logp(x)q(x).
Chain Rules
Chain Rule for Entropy
设(X1,X2,…,Xn)∼p(x1,x2,…,xn):
H(X1,X2,…,Xn)=n∑i−1H(Xi|Xi−1,…,X1).
proof:
归纳法 + H(X,Y)=H(X)+H(Y|X).
定义:
I(X;Y|Z):=H(X|Z)−H(X|Y,Z)=Ep(x,y,z)logp(X,Y|Z)p(X|Z)p(Y|Z).
性质:
I(X1,X2,…,Xn;Y)=n∑i=1I(Xi;Y|Xi−1,…,X1).
proof:
I(X1,X2,…,Xn;Y)=H(X1,…,Xn)+H(Y)−H(X1,…,Xn;Y)=H(X1,…,Xn−1)+H(Xn|X1,…,Xn−1)+H(Y)−H(X1,…,Xn;Y)=I(X1,X2,…,Xn−1;Y)+H(Xn|X1,…,Xn−1)−H(Xn|X1,…,Xn−1;Y)=I(X1,X2,…,Xn−1;Y)+I(Xn;Y|X1,…,Xn−1).
[wiki]
X1,X2,…,Xn+1 的多元互信息定义为 (注, 可能为负数):
I(X1;X2;…;Xn+1)=I(X1;X2;…;Xn)−I(X1;…;Xn|Xn+1),
其描述了给定其中任一变量, 其它变量间的互信息的变化量.
注: 多元互信息也是无序的.
Chain Rule for Relative Entropy
定义:
D(p(y|x)∥q(y|x)):=Ep(x,y)[logp(Y|X)q(Y|X)]=∑xp(x)∑yp(y|x)logp(y|x)q(y|x).
性质:
D(p(x,y)∥q(x,y))=D(p(x)∥q(x))+D(p(y|x)∥q(y|x)).
proof:
D(p(x,y)∥q(x,y))=∑x,yp(x,y)logp(x,y)q(x,y)=∑x,yp(x,y)logp(y|x)p(x)q(y|x)q(x)=∑x,y[p(x,y)(logp(y|x)q(y|x)+logp(x)q(x))]=D(p(x)∥q(x))+D(p(y|x)∥q(y|x)).
补充:
D(p(x,y)∥q(x,y))=D(p(y)∥q(y))+D(p(x|y)∥q(x|y)).
故, 当p(x)=q(x)的时候, 我们可以得到
D(p(x,y)∥q(x,y))=D(p(y|x)∥q(y|x))≥D(p(y)∥q(y))
-
D(p(y|x)∥q(y|x))=D(p(x,y)∥p(x)q(y|x))
-
D(p(x1,x2,…,xn)∥q(x1,x2,…,xm))=∑ni=1D(p(xi|xi−1,…,x1)∥q(xi|xi−1,…,x1))
-
D(p(y)∥q(y))≤D(p(y|x)∥q(y|x)), q(x)=p(x).
1, 2, 3的证明都可以通过上面的稍作变换得到.
Jensen's Inequality
如果f是凸函数, 则
E[f(X)]≥f(E[X]).
Properties
- D(p∥q)≥0 当且仅当p=q取等号.
- I(X;Y)≥0当且仅当X,Y独立取等号.
- D(p(y|x)∥q(y|x))≥0 (根据上面的性质), 当且仅当p(y|x)=q(y|x)取等号, p(x)>0.
- I(X;Y|Z)≥0, 当且仅当X,Y条件独立.
- H(X|Y)≤H(X), 当且仅当X,Y独立等号成立.
- H(X1,X2,…,Xn)≤∑ni=1H(Xi), 当且仅当所有变量独立等号成立.
Log Sum Inequality
此部分的证明, 一方面可以通过plogpq的凸性得到, 更有趣的证明是, 构造一个新的联合分布
p(x,c)=p1⋅λ+p2⋅(1−λ),q(x,c)=q1⋅λ+q2⋅(1−λ).
即
p(x|c=0)=p1,p(x|c=1)=p2,q(x|c=0)=q1,q(x|c=2)=q2,p(c=0)=q(c=0)=λ,p(c=1)=q(c=1)=1−λ.
并注意到D(p(y)∥q(y))≤D(p(y|x)∥q(y|x)).
- H(X)=−∑x∈Xp(x)logp(x)是关于p的凹函数.
- I(X,Y)=∑x,yp(y|x)p(x)logp(y|x)p(y), 当固定p(y|x)的时候是关于p(x)的凹函数, 当固定p(x)的时候, 是关于p(y|x)的凸函数.
仅仅证明后半部分, 任给p1(y|x),p2(y|x), 由于p(x)固定, 故∀0≤λ≤1:
p(x,y):=λp1(x,y)+(1−λ)p2(x,y)=[λp1(y|x)+(1−λ)p2(y|x)]p(x)p(y):=∑xp(x,y)=λ∑xp1(x,y)+(1−λ)∑xp2(x,y)q(x,y):=p(x)p(y)=∑xp(x,y)=λp(x)∑xp1(x,y)+(1−λ)p(x)∑xp2(x,y)=:λq1(x,y)+(1−λ)q2(x,y).
又
I(X,Y)=D(p(x,y)∥p(x)p(y))=D(p(x,y)∥q(x,y)),
因为KL散度关于(p,q)是凸函数, 所以I关于p(y|x)如此.
Data-Processing Inequality
数据X→Y→Z, 即P(X,Y,Z)=P(X)P(Y|X)P(Z|Y) 比如Y=f(X),Z=g(Y).
I(Y,Z;X)=I(X;Y)+I(X;Z|Y)=I(X;Z)+I(X;Y|Z),
又
I(X;Z|Y)=∑x,y,zp(x,y,z)logp(x,z|y)p(x|y)p(z|y)=∑x,y,zp(x,y,z)log1=0.I(X;Y|Z)=∑x,y,zp(x,y,z)logp(x|y)p(x|z)≥0.
故
I(X;Z)≤I(X;Y)I(X;Y|Z)≤I(X;Y).
Sufficient Statistics
-
一族概率分布{fθ(x)}
-
X∼fθ(x), T(X)为其统计量, 则
θ→X→T(X)
-
故
I(θ;X)≥I(θ;T(X))
Sufficient Statistics and Compression
充分统计量定义: 一个函数T(X)被称之为一族概率分布{fθ(x)}的充分统计量, 如果给定T(X)=t时X的条件分布与θ无关, 即
fθ(x)=f(x|t)fθ(t)⇒θ→T(X)→X⇒I(θ;T(X))≥I(θ;X).
此时, I(θ;T(X))=I(θ;X).
最小充分统计量定义: 如果一个充分统计量T(X)与其余的一切关于{fθ(x)}的充分统计量U(X)满足
θ→T(X)→U(X)→X.
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· 【自荐】一款简洁、开源的在线白板工具 Drawnix