文件类似性推断 -- SimHash

近期调研了一下simhash算法,它主要用在谷歌网页去重中。网上有非常多原理性的介绍。

既然能够用来推断文件的相似性,就想知道效果怎么样。simhash的准确度是否依赖于分词算法?是否和simhash的长度有关?

在数据去重过程中,都是先对文件进行分块。而后得到关于这个文件的全部指纹(SHA-1 digest),那么假设把这些fingerprints视为这个文件的单词,作为simhash的输入。效果会怎样呢?接下来自己做了一个简单的測试,測试文件由自己构建的。下表是统计数据,F是基准文件。貌似效果没有那么明显。(当中243/27/27 表示两个文件有243个同样的指纹块(交集)。 27是各自拥有的不同的块)

  

接下来会借用一些分词算法对文件分词后再获得相应的simhash值。与上述情况作对照。







posted on 2017-07-20 17:40  yjbjingcha  阅读(175)  评论(0编辑  收藏  举报

导航