minhash算法详解和LSH
俄亥俄州立 算法讲义(非常详细)
http://web.cse.ohio-state.edu/~sun.397/courses/au2018/FPM-basic-osu-1114.pdf
minhash性质
任意k个元素中有一个是排列Pi下的minhash的概率为k/|X|
在|C1交C2|中选一个才有可能是相同的minhash
LSH
b表示一共用20个band
r表示一个band由r个数组成 如果两个band的这r个数都相同,他们就会被映射到同一个桶中
每一列是一个签名
每一行是一个所有签名的组合
b*r为产生签名的hash函数个数
如果在一个hash函数的作用下被映射到同一个桶中,就作为一个candidate pair 不管其他的hash函数作用下它们会如何映射
如果b很小 r很大 两个签名被hash到同一个桶的概率很小
r越大 就要满足越多的元素均相同才会被hash到同一个桶中 概率降低
如果Jaccard similarity很大 几乎所有的都会是false postive
如果Jaccard similarity很小 几乎不会有false postive
对比上下两幅图 直线上方的部分为原先应该被映射到一起却未被映射到一起的元素