会员
周边
众包
新闻
博问
闪存
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
山峰旺旺
努力,加油
博客园
首页
新随笔
联系
订阅
管理
2018年9月5日
文本相似度simhash算法
摘要: 为此我们需要一种应对于海量数据场景的去重方案,经过研究发现有种叫 local sensitive hash 局部敏感哈希 的东西,据说这玩意可以把文档降维到hash数字,数字两两计算运算量要小很多。查找很多文档后看到google对于网页去重使用的是simhash,他们每天需要处理的文档在亿级别,大大
阅读全文
posted @ 2018-09-05 15:21 山峰旺旺
阅读(544)
评论(0)
推荐(0)
编辑
公告