文件类似性推断 -- SimHash

近期调研了一下simhash算法，它主要用在谷歌网页去重中。网上有非常多原理性的介绍。

既然能够用来推断文件的相似性，就想知道效果怎么样。simhash的准确度是否依赖于分词算法？是否和simhash的长度有关？

在数据去重过程中，都是先对文件进行分块。而后得到关于这个文件的全部指纹(SHA-1 digest)，那么假设把这些fingerprints视为这个文件的单词，作为simhash的输入。效果会怎样呢？接下来自己做了一个简单的測试，測试文件由自己构建的。下表是统计数据，F是基准文件。貌似效果没有那么明显。（当中243/27/27 表示两个文件有243个同样的指纹块（交集）。 27是各自拥有的不同的块）