摘要: 为此我们需要一种应对于海量数据场景的去重方案,经过研究发现有种叫 local sensitive hash 局部敏感哈希 的东西,据说这玩意可以把文档降维到hash数字,数字两两计算运算量要小很多。查找很多文档后看到google对于网页去重使用的是simhash,他们每天需要处理的文档在亿级别,大大 阅读全文
posted @ 2018-09-05 15:21 山峰旺旺 阅读(544) 评论(0) 推荐(0) 编辑