2014年8月17日
摘要: 抓取的网页内容中,有大部分会是相似的,抓取时就要过滤掉,开始考虑用VSM算法,后来发现不对,要比较太多东西了,然后就发现了simHash算法,这个算法的解释我就懒得copy了,simhash算法对于短数据的支持不好,但是,我本来就是很长的数据,用上! 源码实现网上也有不少,但是貌似都是同样的,... 阅读全文
posted @ 2014-08-17 22:35 往事如风 阅读(506) 评论(0) 推荐(0) 编辑