Locality-Sensitive Hashing 入门资料汇总
万物起始皆维基: http://en.wikipedia.org/wiki/Locality-sensitive_hashing
上面给出了4类方法,我只看了其中的两个 bit sampling 和 p-Stable , 其他两个有空再加上
---------------------------------------------------------------------------------------------------------------------------
几个学术类的网址
l2范数下的LSH 也就是所谓的P-Stable方法: http://www.mit.edu/~andoni/LSH/
LSHKIT: A C++ Locality Sensitive Hashing Library http://www.cs.princeton.edu/~wdong/wiki/index.php?n=Main.Research, http://lshkit.sourceforge.net/
---------------------------------------------------------------------------------------------------------------------------
针对原理和bit sampling类方法:
http://blog.csdn.net/fuyangchang/article/details/5631547
http://blog.sina.com.cn/s/blog_5f2c831b0100tbul.html
一个bit sampling 的 JAVA实现 http://grunt1223.iteye.com/blog/937600, http://grunt1223.iteye.com/blog/944894
---------------------------------------------------------------------------------------------------------------------------
关于P-Stable 类方法:
p-stable方法的hash公式很简单 h = (a * v + b) / r; 牛就牛在 a, b, r 的选取构造上面。而这个构造就跟P-稳定分布的性质有关
首先是P-stable
http://en.wikipedia.org/wiki/Levy_skew_alpha-stable_distribution
http://zh.wikipedia.org/wiki/%E7%A8%B3%E5%AE%9A%E5%88%86%E5%B8%83
http://en.wikipedia.org/wiki/Levy_skew_alpha-stable_distribution
http://www.cnblogs.com/jiejnan/archive/2012/03/13/2393660.html
看得累得慌? 那么记住 当P = 1 该分布为柯西分布 P = 2 该分布为正态分布 这样就好理解了。
这个文章把原理写的狠简单明了 http://www.cnblogs.com/jiejnan/archive/2012/03/14/2395517.html
我感觉上文对于投影部分的描述不是很准确,可以看一下下面这篇更好些,虽然有点乱 http://hi.baidu.com/hxk622/blog/item/f978491384f2c0cba7ef3fb6.html
---------------------------------------------------------------------------------------------------------------------------
待续