摘要: 本文实现了根据余弦距离的文本相似度的C++实现算法,如要要点如下:1、对1998年1月的人民日报所有文章进行预处理(其中文件已经分化好分词),然后进行去噪声、去停用词等操作。2、对处理好的数据进行余弦计算,并存储为相应的数据结构。3、输出前N篇最相似的文章下面介绍Statistics.cpp,对预处理文件进行统计词频。 1 #pragma once 2 #include "TextSimilarity.h" 3 #include <windows.h> 4 5 6 void ContentStatistics(string& ArticleContent 阅读全文
posted @ 2013-03-18 16:09 MichaelGD 阅读(2276) 评论(1) 推荐(1) 编辑