simhash

simhash是google用来处理海量文本去重的算法

将一个文档,转换成一个64位的字节,称之为特征字,然后判断重复只需要判断他们的特征字的距离是不是<n(根据经验这个n一般取值为3),就可以判断两个文档是否相似

 simhash算法分为5个步骤:分词、hash、加权、合并、降维

 

posted @ 2018-06-05 09:11  慕尘  阅读(137)  评论(0编辑  收藏  举报