信息论基础

信息的引入#

信息论背后的原理是:从不太可能发生的事件中能学到更多的有用信息。例如,当你被告知“今天早上太阳升起”时,你会觉得这件事几乎没有信息量,因为它发生的概率可以说为1;但当你被告知‘‘今天早上有日食’’ 时,你会觉得这件事的信息量挺大的,因为这件事发生的概率较小。

假设P(xi)表示事件发生的概率,I(xi)表示事件所含的信息量,则信息量,I(xi)与事件发生概率P(xi)之间的关系应当反映如下规律。

规律1:事件中所含的信息量I(xi)是该事件出现概率p(xi)的函数,即

I(xi)=f(P(xi))

规律2:事件的出现概率P(xi)越小,所含的信息量I(xi)越大;反之,P(xi)越大,I(xi)越小。特别地

limp(xi)1I(xi)=0

limp(xi)0I(xi)=1

规律3 :若干个互相独立的事件,所含信息量等于各独立事件信息量之和,也就是说,信息具有相加性,即

I(x1x2x3)=I(x1)+I(x2)+I(x3)

例如,投掷的硬币两次正面朝上传递的信息量,应该是投掷一次硬币正面朝上的信息量的两倍。

自信息和熵#

为了满足以上规律,对于事件 x=x,定义信息量或自信息self-information为:

I(x)=logP(x)

自信息仅仅处理单个输出。信息量的单位为比特(bit)​,1bit对应P(xi)=12。如果一个二进制码0,1出现的概率相等,则每一个二进制码的信息量就是1bit。

如果计算自信息的期望,它就是熵,记作H(P)

H(X)=ExP[I(x)]=ExP[logP(x)]=i=1np(xi)logP(xi)

  • 熵刻画了按照真实分布P来识别一个样本所需要的编码长度的期望(即平均编码长度)。

    如:含有4个字母 (A,B,C,D) 的样本集中,真实分布P=(12,12,0,0) ,则只需要1bit编码即可识别样本。

  • 对于离散型随机变量X,假设其取值集合大小为K ,则可以证明: 0<=H(X)<=logK

条件熵#

对于随机变量XY,条件熵H(Y|X)表示:已知随机变量X的条件下,随机变量Y的不确定性。

它定义为:X给定条件下Y的条件概率分布的熵对X的期望。

H(Y|X)=ExP[H(Y|X=x)]=Ex,yP[logP(X|Y)]=i=1np(yi|xi)logP(yi|xi)

根据定义可以证明:H(X,Y)=H(X|Y)+H(X)

即:描述XY所需要的信息是:描述X所需要的信息加上给定X条件下描述Y所需的额外信息。

KL散度#

KL散度(也称相对熵)是一种测量同一随机变量的不同概率分布差异的方法:对于给定的随机变量x,它的两个概率分布函数 P(x)Q(x) 的区别可以用KL散度来度量:

DKL(P||Q)=ExP[logP(x)Q(x)]=ExP[logP(x)logQ(x)]=i=1nP(xi)logP(xi)Q(xi)

  • KL散度非负。当它为0时,当且仅当 PQ是同一个分布(对于离散型随机变量),或者两个分布几乎处处相等(对于连续型随机变量)。
  • 散度并不是通常意义下的距离,一个原因是因为它不满足对称性DKL(P||Q)DKL(Q||P)

交叉熵#

交叉熵crossentropyH(P,Q)=H(P)+DKL(P||Q)=ExPlogQ(x)=i=1nP(xi)logQ(xi)

  • 交叉熵刻画了使用错误分布Q来表示真实分布P中的样本的平均编码长度。

参考#

posted @   crazypigf  阅读(83)  评论(0编辑  收藏  举报
 
点击右上角即可分享
微信分享提示
主题色彩