信息熵(Entropy)、信息增益(Information Gain)

1、信息熵：H(X) 描述X携带的信息量。信息量越大（值变化越多），则越不确定，越不容易被预测。

对于抛硬币问题，每次有2种情况，信息熵为1

对于投骰子问题，每次有6中情况，信息熵为1.75

下面为公式：

　　其中log2(p)可以理解为p这个需要用几个bit位表示。如p(x1)=1/2, p(x2)=1/4, p(x3)=1/8, p(x4)=1/8,

可以用x1: 1, x2: 10, x3: 110, x4: 111表示，因为为了让平均的bit位最少，概率越大的bit为设的越短。而-log2(p)正好对应bit位数。

那么H(X)可以理解为比特位的期望值。

　　信息熵特点：（以概率和为1为前提哈）

　　a) 不同类别的概率分布越均匀，信息熵越大；

　　b) 类别个数越多，信息熵越大；

　　c) 信息熵越大，越不容易被预测；（变化个数多，变化之间区分小，则越不容易被预测）（对于确定性问题，信息熵为0；p=1; E=p*logp=0）

2、信息增益IG(Y|X): 衡量一个属性(x)区分样本(y)的能力。当新增一个属性(x)时，信息熵H(Y)的变化大小即为信息增益。 IG(Y|X)越大表示x越重要。

条件熵：H(Y|X)，当X条件下Y的信息熵

信息增益： IG(Y|X)=H(Y)-H(Y|X)

举例：

posted @ 2012-11-02 19:17 liyuxia713 阅读(11151) 评论(0) 编辑收藏举报

刷新页面返回顶部

liyuxia