摘要: 转自http://www.cnblogs.com/liangxiaxu/archive/2012/05/05/2484972.html文本相似度算法1.信息检索中的重要发明TF-IDF1.1TFTerm frequency即关键词词频,是指一篇文章中关键词出现的频率,比如在一篇M个词的文章中有N个该关键词,则(公式1.1-1)为该关键词在这篇文章中的词频。1.2IDFInverse document frequency指逆向文本频率,是用于衡量关键词权重的指数,由公式(公式1.2-1)计算而得,其中D为文章总数,Dw为关键词出现过的文章数。2.基于空间向量的余弦算法2.1算法步骤预处理→文本特 阅读全文
posted @ 2012-12-24 17:46 wang_j 阅读(621) 评论(0) 推荐(0) 编辑