摘要: 转载:http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html有些时候,除了找到关键词,我们还希望找到与原文章相似的其他文章。比如,"Google新闻"在主新闻下方,还提供多条相似的新闻。为了找出相似的文章,需要用到"余弦相似性"(c... 阅读全文
posted @ 2013-12-02 09:58 bingtel 阅读(229) 评论(0) 推荐(0) 编辑
摘要: 转自:http://www.cnblogs.com/eyeszjwang/articles/2330094.htmlTF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与文本挖掘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词... 阅读全文
posted @ 2013-12-02 09:47 bingtel 阅读(306) 评论(0) 推荐(0) 编辑