会员
周边
捐助
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
StrongYaYa
在泪水中浸泡过的微笑最灿烂,从迷惘中走出来的灵魂最清醒。
博客园
首页
新随笔
联系
管理
订阅
2016年8月1日
海量文件查重SimHash和Minhash
摘要: SimHash 事实上,传统比较两个文本相似性的方法,大多是将文本分词之后,转化为特征向量距离的度量,比如常见的欧氏距离、海明距离或者余弦角度等等。两两比较固然能很好地适应,但这种方法的一个最大的缺点就是,无法将其扩展到海量数据。例如,试想像Google那种收录了数以几十亿互联网信息的大型搜索引擎,
阅读全文
posted @ 2016-08-01 22:51 StrongYaYa
阅读(9507)
评论(0)
推荐(1)
编辑
公告