摘要:
simhash&hamming distince simhash 是一种长文本的查重算法 SimHash本身属于一种局部敏感hash,其主要思想是降维,将高维的特征向量转化(加权)成低位的hash,通过算出两个海明距离来确定两篇文章的相似度,海明距离越小,相似度越低,一般海明距离为3就代表两篇文章相 阅读全文
最新评论
- 1. Re:FastDFS+Nginx实现文件服务器(转载)
- 请问:nginx服务器上的 mod_fastdfs.conf 文件中,为什么要设置 store_path0=/ljzsg/fastdfs/file 呢?如果多个storage server上面的sto...
- --奥默默