《数学之美》第14章余弦定理和新闻的分类

转载请注明原地址：http://www.cnblogs.com/connorzx/p/4170043.html

基本思想

建立一个字典向量，字典里包含这种语言的所有词组；
统计各个词组的出现次数，填充到对应词组的位置，构成文本的特征向量；
两个特征向量之间用余弦定理求夹角。这个值表明向量之间的相关程度。之所以用夹角而不用长度，是因为不同新闻的长度可能不同，用夹角表示不需要考虑长度（即向量的模长）的差异影响。

自动分类

所有特征向量（N个）两两相关，将结果大于某一阈值的归为一类，共N1个小类。显然，N1<N;
将每个小类看做一个整体，计算其特征向量，每个小类之间求夹角，相关值大于阈值的归为一类，共N2类。其中，N2<N1;
重复上述步骤，直到所有相关值都小于阈值。停止操作，分类结束。

降低算法复杂度方法

保存每个向量的模值；
删除所有虚词。因为虚词不但不起作用，还有可能造成干扰。
计算时跳过由零元素的。

提高准确性方法

采用特殊位置加权的办法，可以有效地提高算法效率。例如，标题、首位段以及每一段的第一句话出现的关键字都应该进行额外的加权。至于原因，你懂的！

posted @ 2014-12-17 18:13 connorzx 阅读(645) 评论(0) 收藏举报

刷新页面返回顶部