《数学之美》第14章 余弦定理和新闻的分类

转载请注明原地址:http://www.cnblogs.com/connorzx/p/4170043.html

基本思想

  1. 建立一个字典向量,字典里包含这种语言的所有词组;
  2. 统计各个词组的出现次数,填充到对应词组的位置,构成文本的特征向量;
  3. 两个特征向量之间用余弦定理求夹角。这个值表明向量之间的相关程度。之所以用夹角而不用长度,是因为不同新闻的长度可能不同,用夹角表示不需要考虑长度(即向量的模长)的差异影响。

自动分类

  1. 所有特征向量(N个)两两相关,将结果大于某一阈值的归为一类,共N1个小类。显然,N1<N;
  2. 将每个小类看做一个整体,计算其特征向量,每个小类之间求夹角,相关值大于阈值的归为一类,共N2类。其中,N2<N1;
  3. 重复上述步骤,直到所有相关值都小于阈值。停止操作,分类结束。 

降低算法复杂度方法

  1. 保存每个向量的模值;
  2. 删除所有虚词。因为虚词不但不起作用,还有可能造成干扰。
  3. 计算时跳过由零元素的。 

提高准确性方法

      采用特殊位置加权的办法,可以有效地提高算法效率。例如,标题、首位段以及每一段的第一句话出现的关键字都应该进行额外的加权。至于原因,你懂的!

posted @ 2014-12-17 18:13  connorzx  阅读(637)  评论(0编辑  收藏  举报