会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
Joyen.fu
日中则昃,月盈则食。
博客园
首页
博问
闪存
新随笔
订阅
管理
2014年11月15日
相似文本文档分析之SimHash算法
摘要: Simhash算法:Simhash算法由Google的Charikar提出,是将一篇文档转化为n位的签名,通过比较签名的相似度来计算原文档的相似度。签名越相近,则文档越相近。因此,整个过程就不会涉及到原文档文本内容的两两比较,就不需要存储这些海量文档的内容。simhash算法的输入是一个向量,输出是...
阅读全文
posted @ 2014-11-15 10:06 Joyen.fu
阅读(213)
评论(0)
推荐(0)
编辑