yangyang12138

导航

文本特征选取

1.信息增益法

信息增益法根据某项特征ti为整个分类所能提供信息量多少来衡量该特征项的重要程度,从而决定对该项特征的取舍。

信息量的多少由信息熵来衡量,因此,信息增益即不考虑任何特征时文档的熵和考虑该特征后文章熵的差

 

 

 2.卡方统计量

卡方统计量衡量的是特征t和类别C直接的相关联程度,并假设t和C直接符合具有一阶自由度的卡方分布。

如果令N表示训练语料库中文档总数,A表示属于C类且包含t的文档频数,B表示不属于C类但包含t的文档频数,C表示属于C类但不包含t的文档频数,

D表示既不属于C也不包含t的文档频数。

 

 3.互信息法

互信息法的基本思想是:互信息越大,特征t和类别C共现的程度越大

 

posted on 2020-03-31 01:11  杨杨09265  阅读(126)  评论(0编辑  收藏  举报