信息论基础
1. 信息熵
熵度量了事物的不确定性,越不确定的事物,它的熵就越大。在没有外部环境的作用下,事物总是向着熵增大的方向发展,所以熵越大,可能性也越大。
\[H(X)=-\sum_{i=1}^np_{(i)}logp_{(i)}
\]
2. 条件熵
X确定时,Y的不确定性度量。
在X发生是前提下,Y发生新带来的熵。
\[H(Y|X)=H(X,Y)-H(X)=-\sum_{x,y}p(x,y)logp(y|x)
\]
3. 联合熵
(X,Y)在一起时的不确定性度量
\[H(X,Y)=-\sum_{x,y}p(x,y)logp(x,y)
\]
4. 互信息(信息增益)
表示两个变量X与Y是否有关系,以及关系的强弱。
\[I(X,Y)=∫_X∫_YP(X,Y)log\frac{P(X,Y)}{P(X)P(Y)}
\]
\[I(X,Y)=H(Y)-H(Y|X)
\]
\[I(X,Y)=H(Y)+H(X)-H(X,Y)
\]
可以看出,I(X,Y)可以解释为由X引入而使Y的不确定度减小的量,这个减小的量为H(Y|X)。所以,如果X,Y关系越密切,I(X,Y)就越大,X,Y完全不相关,I(X,Y)为0,所以互信息越大,代表这个特征的分类效果越好。
5. 相对熵
p与q不相似的度量
\[KL(p||q)=-\sum_{x}p(x)log\frac{q(x)}{p(x)}
\]
6. 交叉熵
衡量p与q的相似性,常常用在深度学习中的分类的损失函数(深度学习中回归任务的损失主要是最小二乘法)。p是真实概率,q是预测概率
\[H(p,q)=-\sum_{x}p(x)logq(x)
\]
\[KL(p||q)=H(p,q)-H(p)
\]
7. 小结
- 信息熵是衡量随机变量分布的混乱程度,是随机分布各事件发生的信息量的期望值,随机变量的取值个数越多,状态数也就越多,信息熵就越大,混乱程度就越大。当随机分布为均匀分布时,熵最大;信息熵推广到多维领域,则可得到联合信息熵;条件熵表示的是在 X 给定条件下,Y 的条件概率分布的熵对 X的期望。
- 相对熵可以用来衡量两个概率分布之间的差异。
- 交叉熵可以来衡量在给定的真实分布下,使用非真实分布所指定的策略消除系统的不确定性所需要付出的努力的大小。