《数学之美》第14章 余弦定理和新闻的分类
转载请注明原地址:http://www.cnblogs.com/connorzx/p/4170043.html
基本思想
- 建立一个字典向量,字典里包含这种语言的所有词组;
- 统计各个词组的出现次数,填充到对应词组的位置,构成文本的特征向量;
- 两个特征向量之间用余弦定理求夹角。这个值表明向量之间的相关程度。之所以用夹角而不用长度,是因为不同新闻的长度可能不同,用夹角表示不需要考虑长度(即向量的模长)的差异影响。
自动分类
- 所有特征向量(N个)两两相关,将结果大于某一阈值的归为一类,共N1个小类。显然,N1<N;
- 将每个小类看做一个整体,计算其特征向量,每个小类之间求夹角,相关值大于阈值的归为一类,共N2类。其中,N2<N1;
- 重复上述步骤,直到所有相关值都小于阈值。停止操作,分类结束。
降低算法复杂度方法
- 保存每个向量的模值;
- 删除所有虚词。因为虚词不但不起作用,还有可能造成干扰。
- 计算时跳过由零元素的。
提高准确性方法
采用特殊位置加权的办法,可以有效地提高算法效率。例如,标题、首位段以及每一段的第一句话出现的关键字都应该进行额外的加权。至于原因,你懂的!
欢迎阅读我的文章,如发现问题,请务必留言指正。
本博客内容除注明转载的内容外,均为作者原创,转载请注明原地址!
博客地址:http://www.cnblogs.com/connorzx/
希望在未来的日子里我和你共同进步。