信息增益

首先说下信息熵

<1>

其中X可以取x₁,x₂,...x_n，P_i为X取x_i的概率，信息熵反应X携带的信息量

引申到分类系统，类别C可以取值C₁,C₂...C_n，整个分类系统的熵为

<2>

其中P(Ci)=Ci类文档数/文档集总文档数

信息增益针对的是特征词t，整个系统有t和没t的信息量的差就是信息增益。

（1）系统有t时候的信息量，即公式<1>

（2）系统没有t的信息量是什么意思呢，分成两种情况：文档中本来就不含有t；文档中含有t，但我们认为t是固定的

这时候使用条件熵来求，即在t存在/不存在的条件下，系统的信息量

<3>

具体使用到分类系统中为：

<4>

其中前半部分是对于包含t的文档，后半部分是对于不包含t的文档

P_t=包含t的文档数/总文档数

P(C_i|t)=Ci类中包含t的文档数/文档集中包含t的文档数

后面反之。

那么特征t的信息增益为： IG(t)=H(C)-H(C|T)

对于给定的训练文档集，要进行文本特征提取，只需将所有IG(t)排序，挑选出前k个即可。

因为对所有t，H(C)是固定的，其实只需要比较H(C|T)即可。

对于类别分布高度不均的文档集，信息增益倾向于选择稀有词汇。

例如，A类文档数>>B类文档数

这样，对于B类中的词，在整个文档集中几乎只出现在B类中，而大部分文档都没有出现

这时候IG取决于公式<4>的后半部分，导致IG值偏高。

posted on 2015-11-07 19:33 IvanSSSS 阅读(290) 评论(0) 收藏举报

刷新页面返回顶部

IvanSSSS