文本分类--特征的选择

向量空间模型

文本可用  字、词组、短语、甚至‘概念’等元素表示   用来表示文本的性质,称为文本的特征

区别文本的属性

 

特征选择就是要选择最能表征文本含义的词组元素

方法:

  • 文档频率
  • 信息增益
  • 卡方检验
  • 互信息

文档频率(DF)

某一词组出现在文档中的频率称为文档频率(DF)

DF=出现词组的文本数/数据集文本总数

过程:

  1. 设定文档频率DF的上界阈值和下届阈值;
  2. 统计训练数据集中词组的文档频率;
  3. 由于词组在训练集出现的频率过低,不具有代表性,因此从特征空间去掉词组
  4. 由于词组在训练集出现的频率过高,不具有区分性,因此从特征空间去掉词组

根据信息论可知,某些词组虽然出现的频率低,但是却含有较多的信息,对于分类可能应该重视这些词组。

 

卡方检验

作用:用来检验两个变量独立性的方法

思想:通过检验实际值与理论值的偏差来确定理论的正确与否;

在文本分类特征选择中,用它衡量类别与词组之间关联度,并假设词组和类别之间服从具有一节自由度的卡方分布

词组对某类的卡方统计量越高,其与该类之间的关联度愈大,携带的信息随之较多

方法:

  1. 假设两个变量独立;
  2. 计算观察值与如果两者确实独立的情况下的理论值的偏差程度;
  3. 若偏差足够小,认为误差属于自然样本误差,是测量方式不精确引起或者属于偶然现象,接受原假设;
  4. 若偏差大到一定程度,否定原假设,认为二者相关;

具有低频词缺陷

 

信息增益(IG)

根据词组 为整个分类系统能够带来的信息量来衡量该词组的重要性,从而对该词组进行选择取舍

信息增益是针对一个词组而言,系统包含词组 和排除它的情况下信息量的差值就是这个词组为系统带来的信息量,即增益;信息量的多少由信息熵来衡量;

信息增益等于 不考虑词组 时文档的信息熵和考虑该词组后文档的信息熵的差值

计算公式:

 

 

互信息(MI)

互信息也是自然语言处理模型分析的常用方法

依据信息论基础,来度量两个变量间的相关性。依据互信息进行特征选择的假设前提:

在类别 中出现频率较高,而在其他类别 中出现频率较低的词组 与  类别 的互信息较大

基本思想:

互信息越大,词组与类别越可能共同出现。

计算公式:

 

由于该特征选择方法不需要词组和类别之间性质做任何假设,比较适合文本分类的特征选择

存在低频词强依赖:表示训练集中出现很少的词组,互信息值很大,很容易被选为特征。

可能是错误的单词或者分词系统切分错误的词语。

posted @ 2019-06-26 11:35  leims  阅读(757)  评论(0编辑  收藏  举报