摘要:
转自http://www.cnblogs.com/liangxiaxu/archive/2012/05/05/2484972.html文本相似度算法1.信息检索中的重要发明TF-IDF1.1TFTerm frequency即关键词词频,是指一篇文章中关键词出现的频率,比如在一篇M个词的文章中有N个该关键词,则(公式1.1-1)为该关键词在这篇文章中的词频。1.2IDFInverse document frequency指逆向文本频率,是用于衡量关键词权重的指数,由公式(公式1.2-1)计算而得,其中D为文章总数,Dw为关键词出现过的文章数。2.基于空间向量的余弦算法2.1算法步骤预处理→文本特 阅读全文