文本特征选取
1.信息增益法
信息增益法根据某项特征ti为整个分类所能提供信息量多少来衡量该特征项的重要程度,从而决定对该项特征的取舍。
信息量的多少由信息熵来衡量,因此,信息增益即不考虑任何特征时文档的熵和考虑该特征后文章熵的差
2.卡方统计量
卡方统计量衡量的是特征t和类别C直接的相关联程度,并假设t和C直接符合具有一阶自由度的卡方分布。
如果令N表示训练语料库中文档总数,A表示属于C类且包含t的文档频数,B表示不属于C类但包含t的文档频数,C表示属于C类但不包含t的文档频数,
D表示既不属于C也不包含t的文档频数。
3.互信息法
互信息法的基本思想是:互信息越大,特征t和类别C共现的程度越大