会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
HOU_JUN
博客园
首页
新随笔
订阅
管理
2015年9月5日
simhash类的使用
摘要: 首先感谢作者yanyiwu贡献的开源项目https://github.com/yanyiwu/simhash。在做项目过程中,翻了一遍《这就是搜索引擎 核心技术详解》这本书的查重算法,在众多的算法中,我选择了simhash。这个算法的魅力在于,它把文本内容的相似性,转换为哈希值的相似性,很好理解,...
阅读全文
posted @ 2015-09-05 18:06 HOU_JUN
阅读(862)
评论(0)
推荐(0)
编辑
公告