Entropy
Topic 1: 定义在事件上的函数
自信息
自信息是一个事件的信息量的度量,基本思想是概率越小,事件蕴含的信息量越大,满足如下性质:
- 非负性:f(x)≥0
- 单调:如果事件a,b, P(a)<P(b), 则 f(a)>f(b)
- f(a)=0 iff P(a)=1
- P(a)=0 则 f(a)=∞
- 独立可加性:f(a,b)=f(a)+f(b) when a and b are independent.
可以证明:f(x)=−logP(x) 满足上述性质。
定义:样本空间中的一个事件 x 的自信息为
I(x)=−logPX(x)
单位为bit
Insight:
- 自信息是定义在一个事件上的,而不是一个分布上。
- 在发生前,自信息表示的是不确定性
- 在发生后,自信息表示的是信息量
联合自信息
定义:样本空间中两个事件 x,y 的概率的联合自信息为
I(x,y)=−logPXY(x,y)
条件自信息
定义:样本空间中,给定事件 y 发生的条件下,事件 x 的条件自信息为
I(x|y)=−logPX|Y(x|y)
Insight:
- y=bi给定时,x 发生前的不确定性
- y=bi给定时,x 发生后的信息量
自信息之间的联系:
I(x,y)=−logPXY(xy)=−logPX|Y(x|y)PY(y)=I(x|y)+I(y)
同理
I(x,y)=I(y|x)+I(x)
互信息
已知 I(x)是 x 事件所含有的信息量,I(x|y)是 x 事件在 given y 事件发生后的信息量,那么可以定义两者的差值为 y 事件带给 x 事件的信息量(增益)
(此处添加下标,其实上文也应该添加下标,指给定样本空间的意思)
IX;Y(x;y)=IX(x)−IX|Y(x|y)=logP(x|y)P(x)=logP(xy)P(x)P(y)
互信息的性质:
- I(x;y)=I(y;x)
- 当x,y独立时,I(x;y) = 0 (y无法给x带来信息)
- 可正可负
- I(x;y)≤I(x)/I(y)
额外的条件互信息:
I(x;y|z)=logP(x|y,z)P(x|z)=logP(x,y,z)P(x|z)P(y|z)
Topic 2:定义在概率分布上的函数
(离散)信息熵
定义为一个样本空间上所有随机事件(随机变量是离散的)的自信息的期望,熵在物理意义上是平均意义下对随机事件不确定性/信息量的度量,计算机意义上是平均意义上对随机变量的编码长度。
Example:投掷均匀硬币的信息熵为 1bit,即可以使用一位编码表示所有结果
H(X)=EX[I(X)]=−n∑ip(xi)logp(xi)n∑ip(xi)=1
- 其中,定义0log0=0,使用极限定义limx→∞xlogx=0
- 使用拉格朗日乘子法获得 H(X)的最大值
L(p,λ)=n∑ip(xi)logp(xi)+λ−λn∑ip(xi)∂L∂p(xi)=logp(xi)+1ln2−λ=0⇒λ=logp(xi)+1ln2
对所有取值依次求偏导,发现 H(X)最大值(拉格朗日里的最小值)在均匀分布时取到。
-
H(X)≥0
-
ex:微分熵,定义在连续概率分布上的信息熵
h(x)=−∫p(x)logp(x)dx
differential entropy 可以为负数,同时在均值和方差的连续分布当中,高斯分布具有最大的熵
条件信息熵
定义为一个样本空间内,Y 事件发生时,X 事件发生的条件自信息期望
涉及到两个概率分布,因此需要对一个事件发生和所有事件发生的期望进行定义
一个事件发生时,X 分布的信息量期望
H(X|y)=Ep(x|y)[I(x|y)]=−∑xp(x|y)logp(x|y)
Y 分布的事件发生时,X 分布的信息量的期望的期望,引申全期望公式
H(X|Y)=∑yp(y)H(X|y)=−∑y∑xp(xy)logp(x|y)
与条件互信息相同,表示的是 Y 分布对 X 分布贡献之后的信息量,其差值可以用另外一个函数表示,定义在 Topic 3。
联合信息熵
定义为两个概率分布的联合自信息的期望
H(X,Y)=E[I(X,Y)]=−∑x∑yp(x,y)logp(x,y)
Prior Knowledge
-
上凸函数/Concave Function
αf(x)+(1−α)f(x)≤f(αx+(1−α)x), α∈[0,1]
-
Jensen 不等式
若 f 严格上凸(等号仅取在α=0/1或者x1=x2),则
∑kλkf(xk)≤f(∑kλkxk), ∑kλk=1
proof:
-
n=2 时,λ1f(x1)+λ2f(x2)≤f(λ1x1+λ2x2), ∑λi=1, 并且等号仅在 λ1=1,λ2=0或者x1=x2时取到
-
假设对于 n=k 时成立,那么对于 n=k+1 时,要证明
k+1∑1λif(xi)≤f(∑i+1λixi)
即证明
k∑1λif(xi)+λk+1f(xk+1)≤f(k∑1λixi+λk+1xk+1)(1)
已知
k∑1λi=1
将 inequality 左边第一项转化为合一项,即
k∑1λif(xi)=k∑1λik∑1λi∑k1λif(xi)≤k∑1λif(λi∑k1λixi)
= 当且仅当 λi=1 或者 所有xi均相等时取等号
于是(1)变为
k∑1λif(xi)+λk+1f(xk+1)≤k∑1λif(λi∑k1λixi)+λk+1f(xk+1)(2)
又因为∑k1λi+λk+1=1
再使用一次 Jensen 不等式,得到
k∑1λif(λi∑k1λixi)+λk+1f(xk+1)≤f(k∑1λiλi∑k1λixi+λk+1xk+1)=f(k+1∑1λixi)(3)
= 当某一个λi=1 或者λi∑k1λixi=xk+1相等时取等号
分析取等号条件:
当所有xi,i≤k相等,且λi∑k1λixi=xk+1时取等号,可得所有的xi,i≤k+1相等时,取等号。
-
logx是上凸函数,E[logx]≤logE[x]
KL Divergence
若 P,Q 定义在同一个概率空间的不同测度,那么 KL Divergence 定义为
D(P∥Q)=Ep[logp(x)q(x)]=∑xp(x)logp(x)q(x)
Properties:
-
KL Divergence 不是一个 metric/dist,因为 metric 需要满足以下性质(复习 mml,dist 可由 norm 确定:d(x.y)=∥x−y∥)
- 对称性
- 非负性
- 三角不等式
-
可以用来描述概率分布的距离(但是必须定义在同一个概率空间之上)
-
D(P∥Q)≥0, '=' iff Q(x)=P(x)
proof:
−D(P∥Q)=∑xp(x)logq(x)p(x)≤Jensen Inequalitylog∑xp(x)q(x)p(x)=log∑xq(x)=0
根据 Jensen 不等式的取等号条件,= iff q(x)p(x)对所有x的均相等, 又因为概率归一,所以所有的q(x)=p(x)
Basic Properties
- 熵不依赖分布的位置(大小)
- 离散熵的非负性
- 小概率事件对熵的影响很小
limϵ→0−ϵlogϵ 因此,limϵ→0H(p1,…,pn−ϵ,ϵ)=H(p1,…,pn)
- H(X,Y)=H(X)+H(Y|X)=H(Y)+H(X|Y)
- 离散熵的最大值取在均匀分布(证明见拉格朗日乘子法)
- H(X)严格上凸
- H(Y|X)≤H(Y),等号当且仅当 X⊥Y
- Chain Rule: H(X1,…,Xn)=∑iH(Xi|X1,…,Xi−1)
- 联合熵不大于各自熵之和:H(X1,…,Xn)≤∑H(Xi),使用 7 和 8 可证明,等号当且仅当 Xi⊥Xj,∀i≠j
平均互信息
集合Y 与 事件 x 的平均互信息定义为
I(x;Y)=Ep(y|x)[I(y)−I(y|x)]=∑yp(y|x)logp(y|x)p(y)
平均互信息非负:I(x;Y)=D(p(y|x)∥p(y))≥0
集合Y 与 集合 X 的平均互信息定义为
I(X;Y)=Ep(x)[I(x;Y)]=∑xp(x)∑yp(y|x)logp(y|x)p(y)=∑x∑yp(x,y)logp(x,y)p(x)p(y)
物理意义:I(X;Y) 表示 X 通过 Y 获得的平均信息量
性质:
- I(X;Y)=I(Y;X)=H(X)−H(X|Y)=H(Y)−H(Y|X)
- I(X;Y)≥0, because I(x;Y)≥0
- I(X;Y)≤H(X)/H(Y)
平均条件互信息
集合Z 与 集合 X 与 集合 Y 的平均条件互信息定义为
I(X;Y|Z)=Ep(z)[I(X;Y|z)]=∑zp(z)∑x∑yp(x,y|z)logp(x,y|z)p(x|z)p(y|z)
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· Docker 太简单,K8s 太复杂?w7panel 让容器管理更轻松!