2014年2月11日

基于SimHash的微博去重

摘要: 一、需求:对微博数据进行去重,数据量比较小,几十万条左右。二、解决方案 1、采用SimHash的指纹信息去重方法。三、实现方案 1、对每一条微博使用tf-idf与特征词 2、使用每条微博的特征词,通过SimHash方法生成信息指纹。 3、对生成的信息指纹统计计算海明距离,距离小于等于1判为相... 阅读全文

posted @ 2014-02-11 17:04 BruceLv 阅读(1596) 评论(0) 推荐(0) 编辑

导航