数学中余弦定理在搜索中的分类应用——新闻的分类

文章顺序排在《地图和本地搜索的最基本技术》之后

1.特征向量的提取

i.思想：

想让计算机来对新闻进行分类，先要将新闻变为一组可计算的数字

ii.实现：

a.去掉新闻中的助词（的、地、得），以及虚词（之乎者也）

b.然后将剩下的词的IF-IDF，依据词汇表的顺序，组成一个特征向量；向量中的每一个维度代表这个词对这篇新闻主题的贡献

c.用两个向量的夹角来衡量两篇新闻的是否“接近”

可以看出cos值在[0,1]间，接近1，则两篇新闻属于同一类

2.整体的实现

i.如果已知了各类新闻类别的特征向量，对于一篇新文章的分类，可以简单的计算就能知道其分类

ii.自动计算新闻类别的特征向量

a.计算所有新闻两两之间的相似性，把相似性大于一个阀值的新闻合并成一个小类（subclass），这样N篇文章就形成N1个小类，且N1<N;

b.再把小类中所有的新闻作为一个整体，计算整体的特征向量，进而计算其余弦的相似性，然后合并为大一点的类，如有N2个，有N2<N1.

c.当类越来越大时，其中的新闻的相似性就越来越小了，此时就要停止上述迭代的过程了，至此，自动分类完成

d.算法论文：Radu Florian and Davie Yarowsky, Dynamic nonlocal language modeling via hierarchical topic-based adaptation, ACL 1999

3.大规模自动分类时，计算余弦的技巧：

i.将分母即每个新闻的|a|都缓存起来，每次的跌代量可以节省2/3

ii.分子的计算只需要考虑一个非零元素个数较小的向量中的非零维度，与其相对应位置上另一个向量此维度的乘积即可

iii.删除虚词、stop词、连词、副词、介词

4.位置加权的作用：

标题中的词、文章靠头、结尾的词、段落的第一个句子比其他部分的词更加重要，所以需要对这些地方进行额外的加成，来提高算法的准确性

posted @ 2017-01-16 15:45 成金之路阅读(1211) 评论(0) 收藏举报

刷新页面返回顶部

成金之路