博客:https://www.cnblogs.com/enhaofrank/,公众号:生信AI区块链科技前沿,github:https://github.com/enhaofrank

功不唐捐 玉汝于成

2022年5月27日

simhash文本去重算法

摘要: SimHash 是为了计算任意多篇文档之间的相似度存在的,通过simhash算法可以计算出文档的simhash值,通过各个文档计算出的二进制值来计算文档之间的汉明距离,然后根据汉明距离来比较文档之间的相似度。 汉明距离是指两个相同长度的字符串相同位置上不同的字符的个数。 两个码字的对应比特取值不同的 阅读全文

posted @ 2022-05-27 11:16 enhaofrank 阅读(475) 评论(0) 推荐(0) 编辑

导航