文本分类:特征选择统计量

在文本分类中,用于特征选择的统计量主要有这些:

  1. 特征频度(term frequency,tf)

原理是:低频的往往对分类影响不大,从而可以被排除掉。同时,不是所以高频都是影响大的,比如在文本中分布均匀的高频的贡献是不大的。

应用: 主要用在文本标引时直接删除某些低频特征

      2. 文本频度(document frequency,df)

原理是:稀有词条可能是噪声,但也可能对某一类别的区分作用显著

应用:多于tf结合起来使用

      3. 信息熵(特征熵)

clip_image001

公式理解: 某个随机变量的取值x能够提供的信息量为log(1/p(x)),那么信息熵就是这些取值的能够提供的信息量的平均值,pi是特征w属于ci的概率,即P(Ci|w)

如果pi表示xi发生的概率,如果pi约接近于1,则这种xi可以被理解成约接近大家通识的事实,故对预测提供的价值越少,即信息熵越少,因此信息熵应该是pi的单项递减函数。故公式为 对于时间xi而言,其信息熵为K,对于每一个可能出现的随机事件,平均信息熵即为该信源的信息熵

clip_image002

如果把抛硬币当作一个信源,那么出现正反面的概率均是0.5的时候,说明该信源的随机性越强,即信息熵越大。

clip_image003

上面例子中,第一种情况信息熵为0.056k,第二种0.693k (以自然底数为底)

应用:把特征t当做是一个事件,而类别C是一个系统(信源),每一个类别就是一个随机变量,那么当t发生时,系统C的条件熵便是当t在文本中出现时,这个系统的不确定性,即确定该文本所属类型的不确定性,故特征熵越小,该特征对分类的作用越大。

公式:clip_image004

clip_image005

        4. 信息增益(information gain)

原理:信息增益衡量的是某个特征出现前后,该分类系统不确定性的变化程度。那么,对于出现后,显然就是上述公式;出现前可以这样理解,对于一个词,它是被固定的,即我们知道这个词一定在所有文本中都出现,或是都不出现。但是到底该固定到哪种情况呢?需要通过每种情况的概率来平均。

公式:

分类系统包含特征T(T是一个特征,即T出现): H(C)

分类系统固定特征T(T不出现): H(C|T) ,

clip_image006

因此,信息增益公式如下

clip_image007

上述公式也等价于:

clip_image008

         5. 互信息(mutual information)

原理:将系统C中的每一个类别ci看成是一个事件,当特征的出现只依赖于某一类别时,互信息很大;相互独立时,互信息为0;当特征很少在该类别中出现时,互信息为负。

公式:

clip_image009

         6. X2统计量(chi-square, Chi)

原理:不解释,较直观

公式:

clip_image010

应用:计算特征t全局的Chi值,选择Chi值较大的特征

全局计算方式1:

clip_image011

全局计算方式2:

clip_image012

posted @ 2015-03-20 11:50  betterSN  阅读(1719)  评论(0编辑  收藏  举报