摘要: SimHash是什么 SimHash是Google在2007年发表的论文《Detecting Near-Duplicates for Web Crawling 》中提到的一种指纹生成算法或者叫指纹提取算法,被Google广泛应用在亿级的网页去重的Job中,作为locality sensitive h 阅读全文
posted @ 2017-03-14 17:30 鲁仕林 阅读(5699) 评论(0) 推荐(0) 编辑