simhash文本去重算法
摘要:
SimHash 是为了计算任意多篇文档之间的相似度存在的,通过simhash算法可以计算出文档的simhash值,通过各个文档计算出的二进制值来计算文档之间的汉明距离,然后根据汉明距离来比较文档之间的相似度。 汉明距离是指两个相同长度的字符串相同位置上不同的字符的个数。 两个码字的对应比特取值不同的 阅读全文
posted @ 2022-05-27 11:16 enhaofrank 阅读(475) 评论(0) 推荐(0) 编辑