摘要:
这里我想讨论下5个解决网页去重的算法,转载自(http://blog.csdn.net/beta2/article/details/5014530)1. I-Match2. Shingliing3. SimHashing( locality sensitive hash)4. Random Projection5. SpotSig6. combinedI-Match算法 I-Match算法有一个基本的假设说:不经常出现的词和经常出现的词不会影响文档的语义,所以这些词是可以去掉的。 算法的基本思想是:将文档中有语义的单词用hash的办法表示成一个数字,数字的相似性既能表达文档的相似性 ... 阅读全文