信息熵与自信息

Entropy

Topic 1: 定义在事件上的函数

自信息

自信息是一个事件的信息量的度量,基本思想是概率越小,事件蕴含的信息量越大,满足如下性质:

  1. 非负性:f(x)0
  2. 单调:如果事件a,b, P(a)<P(b), 则 f(a)>f(b)
  3. f(a)=0 iff P(a)=1
  4. P(a)=0f(a)=
  5. 独立可加性:f(a,b)=f(a)+f(b) when a and b are independent.

可以证明:f(x)=logP(x) 满足上述性质。

定义:样本空间中的一个事件 x 的自信息为

I(x)=logPX(x)

单位为bit

Insight:

  • 自信息是定义在一个事件上的,而不是一个分布上。
  • 在发生前,自信息表示的是不确定性
  • 在发生后,自信息表示的是信息量

联合自信息

定义:样本空间中两个事件 x,y 的概率的联合自信息为

I(x,y)=logPXY(x,y)

条件自信息

定义:样本空间中,给定事件 y 发生的条件下,事件 x 的条件自信息为

I(x|y)=logPX|Y(x|y)

Insight:

  • y=bi给定时,x 发生前的不确定性
  • y=bi给定时,x 发生后的信息量

自信息之间的联系

I(x,y)=logPXY(xy)=logPX|Y(x|y)PY(y)=I(x|y)+I(y)

同理

I(x,y)=I(y|x)+I(x)

互信息

已知 I(x)是 x 事件所含有的信息量,I(x|y)是 x 事件在 given y 事件发生后的信息量,那么可以定义两者的差值为 y 事件带给 x 事件的信息量(增益)

(此处添加下标,其实上文也应该添加下标,指给定样本空间的意思)

IX;Y(x;y)=IX(x)IX|Y(x|y)=logP(x|y)P(x)=logP(xy)P(x)P(y)

互信息的性质:

  • I(x;y)=I(y;x)
  • x,y独立时,I(x;y) = 0 (y无法给x带来信息)
  • 可正可负
  • I(x;y)I(x)/I(y)

额外的条件互信息:

I(x;y|z)=logP(x|y,z)P(x|z)=logP(x,y,z)P(x|z)P(y|z)

Topic 2:定义在概率分布上的函数

(离散)信息熵

定义为一个样本空间上所有随机事件(随机变量是离散的)的自信息的期望,熵在物理意义上是平均意义下对随机事件不确定性/信息量的度量,计算机意义上是平均意义上对随机变量的编码长度

Example:投掷均匀硬币的信息熵为 1bit,即可以使用一位编码表示所有结果

H(X)=EX[I(X)]=inp(xi)logp(xi)inp(xi)=1

  • 其中,定义0log0=0,使用极限定义limxxlogx=0
  • 使用拉格朗日乘子法获得 H(X)的最大值

L(p,λ)=inp(xi)logp(xi)+λλinp(xi)Lp(xi)=logp(xi)+1ln2λ=0λ=logp(xi)+1ln2

对所有取值依次求偏导,发现 H(X)最大值(拉格朗日里的最小值)在均匀分布时取到。

  • H(X)0

  • ex:微分熵,定义在连续概率分布上的信息熵

h(x)=p(x)logp(x)dx

differential entropy 可以为负数,同时在均值和方差的连续分布当中,高斯分布具有最大的熵

条件信息熵

定义为一个样本空间内,Y 事件发生时,X 事件发生的条件自信息期望

涉及到两个概率分布,因此需要对一个事件发生和所有事件发生的期望进行定义

一个事件发生时,X 分布的信息量期望

H(X|y)=Ep(x|y)[I(x|y)]=xp(x|y)logp(x|y)

Y 分布的事件发生时,X 分布的信息量的期望的期望,引申全期望公式

H(X|Y)=yp(y)H(X|y)=yxp(xy)logp(x|y)

与条件互信息相同,表示的是 Y 分布对 X 分布贡献之后的信息量,其差值可以用另外一个函数表示,定义在 Topic 3。

联合信息熵

定义为两个概率分布的联合自信息的期望

H(X,Y)=E[I(X,Y)]=xyp(x,y)logp(x,y)

Prior Knowledge

  1. 上凸函数/Concave Function

    αf(x)+(1α)f(x)f(αx+(1α)x), α[0,1]

  2. Jensen 不等式
    若 f 严格上凸(等号仅取在α=0/1或者x1=x2),则

    kλkf(xk)f(kλkxk), kλk=1

    proof:

    1. n=2 时,λ1f(x1)+λ2f(x2)f(λ1x1+λ2x2), λi=1, 并且等号仅在 λ1=1,λ2=0或者x1=x2时取到

    2. 假设对于 n=k 时成立,那么对于 n=k+1 时,要证明

      1k+1λif(xi)f(i+1λixi)

      即证明

      (1)1kλif(xi)+λk+1f(xk+1)f(1kλixi+λk+1xk+1)

      已知

      1kλi=1

      将 inequality 左边第一项转化为合一项,即

      1kλif(xi)=1kλi1kλi1kλif(xi)1kλif(λi1kλixi)

      = 当且仅当 λi=1 或者 所有xi均相等时取等号

      于是(1)变为

      (2)1kλif(xi)+λk+1f(xk+1)1kλif(λi1kλixi)+λk+1f(xk+1)

      又因为1kλi+λk+1=1

      再使用一次 Jensen 不等式,得到

      (3)1kλif(λi1kλixi)+λk+1f(xk+1)f(1kλiλi1kλixi+λk+1xk+1)=f(1k+1λixi)

      = 当某一个λi=1 或者λi1kλixi=xk+1相等时取等号

    分析取等号条件
    当所有xi,ik相等,且λi1kλixi=xk+1时取等号,可得所有的xi,ik+1相等时,取等号。

  3. logx是上凸函数,E[logx]logE[x]

KL Divergence

若 P,Q 定义在同一个概率空间的不同测度,那么 KL Divergence 定义为

D(PQ)=Ep[logp(x)q(x)]=xp(x)logp(x)q(x)

Properties:

  1. KL Divergence 不是一个 metric/dist,因为 metric 需要满足以下性质(复习 mml,dist 可由 norm 确定:d(x.y)=xy

    1. 对称性
    2. 非负性
    3. 三角不等式
  2. 可以用来描述概率分布的距离(但是必须定义在同一个概率空间之上)

  3. D(PQ)0, '=' iff Q(x)=P(x)

    proof:

D(PQ)=xp(x)logq(x)p(x)Jensen Inequalitylogxp(x)q(x)p(x)=logxq(x)=0

根据 Jensen 不等式的取等号条件,= iff q(x)p(x)对所有x的均相等, 又因为概率归一,所以所有的q(x)=p(x)

Basic Properties

  1. 熵不依赖分布的位置(大小)
  2. 离散熵的非负性
  3. 小概率事件对熵的影响很小
    limϵ0ϵlogϵ 因此,limϵ0H(p1,,pnϵ,ϵ)=H(p1,,pn)
  4. H(X,Y)=H(X)+H(Y|X)=H(Y)+H(X|Y)
  5. 离散熵的最大值取在均匀分布(证明见拉格朗日乘子法)
  6. H(X)严格上凸
  7. H(Y|X)H(Y),等号当且仅当 XY
  8. Chain Rule: H(X1,,Xn)=iH(Xi|X1,,Xi1)
  9. 联合熵不大于各自熵之和:H(X1,,Xn)H(Xi),使用 7 和 8 可证明,等号当且仅当 XiXj,ij

Topic 3: Mutual Information

平均互信息

集合Y 与 事件 x 的平均互信息定义为

I(x;Y)=Ep(y|x)[I(y)I(y|x)]=yp(y|x)logp(y|x)p(y)

平均互信息非负:I(x;Y)=D(p(y|x)p(y))0

集合Y 与 集合 X 的平均互信息定义为

I(X;Y)=Ep(x)[I(x;Y)]=xp(x)yp(y|x)logp(y|x)p(y)=xyp(x,y)logp(x,y)p(x)p(y)

物理意义:I(X;Y) 表示 X 通过 Y 获得的平均信息量

性质

  1. I(X;Y)=I(Y;X)=H(X)H(X|Y)=H(Y)H(Y|X)
  2. I(X;Y)0, because I(x;Y)0
  3. I(X;Y)H(X)/H(Y)

平均条件互信息

集合Z 与 集合 X 与 集合 Y 的平均条件互信息定义为

I(X;Y|Z)=Ep(z)[I(X;Y|z)]=zp(z)xyp(x,y|z)logp(x,y|z)p(x|z)p(y|z)

posted @   Blackteaxx  阅读(154)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· Docker 太简单,K8s 太复杂?w7panel 让容器管理更轻松!
点击右上角即可分享
微信分享提示