会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
雪饮者
运伟大之思者,必行伟大之迷途
博客园
首页
新随笔
联系
订阅
管理
2017年5月29日
高效网页去重算法-SimHash
摘要: 记得以前有人问过我,网页去重算法有哪些,我不假思索的说出了余弦向量相似度匹配,但如果是数十亿级别的网页去重呢?这下糟糕了,因为每两个网页都需要计算一次向量内积,查重效率太低了!我当时就想:论查找效率肯定是要考虑hash算法,相同字符串的hashcode肯定相同,不同字符串的hashcode却是大不相
阅读全文
posted @ 2017-05-29 21:29 雪饮者
阅读(2167)
评论(0)
推荐(0)
编辑
公告