信息增益

首先说下信息熵

<1>

其中X可以取x1,x2,...xn,Pi为X取xi的概率,信息熵反应X携带的信息量

 

引申到分类系统,类别C可以取值C1,C2...Cn,整个分类系统的熵为

<2>

其中P(Ci)=Ci类文档数/文档集总文档数

 

信息增益针对的是特征词t,整个系统有t和没t的信息量的差就是信息增益。

(1)系统有t时候的信息量,即公式<1>

(2)系统没有t的信息量是什么意思呢,分成两种情况:文档中本来就不含有t;文档中含有t,但我们认为t是固定的

这时候使用条件熵来求,即在t存在/不存在的条件下,系统的信息量

<3>

具体使用到分类系统中为:

<4>

其中前半部分是对于包含t的文档,后半部分是对于不包含t的文档

Pt=包含t的文档数/总文档数

P(Ci|t)=Ci类中包含t的文档数/文档集中包含t的文档数

后面反之。

 

那么特征t的信息增益为: IG(t)=H(C)-H(C|T) 

对于给定的训练文档集,要进行文本特征提取,只需将所有IG(t)排序,挑选出前k个即可。

因为对所有t,H(C)是固定的,其实只需要比较H(C|T)即可。

 

对于类别分布高度不均的文档集,信息增益倾向于选择稀有词汇。

例如,A类文档数>>B类文档数

这样,对于B类中的词,在整个文档集中几乎只出现在B类中,而大部分文档都没有出现

这时候IG取决于公式<4>的后半部分,导致IG值偏高。

 

posted on 2015-11-07 19:33  IvanSSSS  阅读(272)  评论(0编辑  收藏  举报

导航