文本分类--特征的选择
向量空间模型
文本可用 字、词组、短语、甚至‘概念’等元素表示 用来表示文本的性质,称为文本的特征
区别文本的属性
特征选择就是要选择最能表征文本含义的词组元素
方法:
- 文档频率
- 信息增益
- 卡方检验
- 互信息
文档频率(DF)
某一词组出现在文档中的频率称为文档频率(DF)
DF=出现词组的文本数/数据集文本总数
过程:
- 设定文档频率DF的上界阈值和下届阈值;
- 统计训练数据集中词组的文档频率;
- 由于词组在训练集出现的频率过低,不具有代表性,因此从特征空间去掉词组
- 由于词组在训练集出现的频率过高,不具有区分性,因此从特征空间去掉词组
根据信息论可知,某些词组虽然出现的频率低,但是却含有较多的信息,对于分类可能应该重视这些词组。
卡方检验
作用:用来检验两个变量独立性的方法
思想:通过检验实际值与理论值的偏差来确定理论的正确与否;
在文本分类特征选择中,用它衡量类别与词组之间关联度,并假设词组和类别之间服从具有一节自由度的卡方分布
词组对某类的卡方统计量越高,其与该类之间的关联度愈大,携带的信息随之较多
方法:
- 假设两个变量独立;
- 计算观察值与如果两者确实独立的情况下的理论值的偏差程度;
- 若偏差足够小,认为误差属于自然样本误差,是测量方式不精确引起或者属于偶然现象,接受原假设;
- 若偏差大到一定程度,否定原假设,认为二者相关;
具有低频词缺陷
信息增益(IG)
根据词组 为整个分类系统能够带来的信息量来衡量该词组的重要性,从而对该词组进行选择取舍
信息增益是针对一个词组而言,系统包含词组 和排除它的情况下信息量的差值就是这个词组为系统带来的信息量,即增益;信息量的多少由信息熵来衡量;
信息增益等于 不考虑词组 时文档的信息熵和考虑该词组后文档的信息熵的差值
计算公式:
互信息(MI)
互信息也是自然语言处理模型分析的常用方法
依据信息论基础,来度量两个变量间的相关性。依据互信息进行特征选择的假设前提:
在类别 中出现频率较高,而在其他类别 中出现频率较低的词组 与 类别 的互信息较大
基本思想:
互信息越大,词组与类别越可能共同出现。
计算公式:
由于该特征选择方法不需要词组和类别之间性质做任何假设,比较适合文本分类的特征选择
存在低频词强依赖:表示训练集中出现很少的词组,互信息值很大,很容易被选为特征。
可能是错误的单词或者分词系统切分错误的词语。