Locality Sensitive Hash 局部敏感哈希

Locality Sensitive Hash是一种常见的用于处理高维向量的索引办法。与其它基于Tree的数据结构，诸如KD-Tree、SR-Tree相比，它较好地克服了Curse of Dimension，能够将KNN的时间复杂度缩减到sub-linear。LSH多被用于文本、多媒体（图像、音频）的相似性判断。请看下图：

参考上图，如果我们要返回距离中心为r的点，LSH会返回给我们范围更远、更多的点，也就是说，LSH返回的结果会带有一定的false positive。我们或许需要使用linear search进行二次筛选，但这毕竟大大减少了计算的时间。

由此可见，LSH与一般的加密型哈希函数有很大的区别，参见下图：

一种实现LSH的最简单的方式是采用random bits sampling的方式，即将待索引的多维整型向量转化为0或1的字符串；再采用随机选取其中的K位拼接成新的字符串；最后再采用常规的哈希函数（例如MD5）等算法获取带索引向量的LSH Code。这样的Hash Code有一个特点，就是Hamming Distance相近的两个向量，其冲突的概率越大，即结果相等的可能性越大。为了减少增强KNN搜索的能力，与Bloom Filter类似，采用多个Hash Table增加冲突的概率，参见下图：

来看一下LSH的复杂度：

可见，与各种其它的数据结构相比，基于lsh的索引结构的query时间复杂度，可以做到与向量维度无关，有效地克服了维度灾难的问题，因此更适合高维向量的索引。

基于LSH实现的图像近似检索，其原理也很类似，如下图所示：

posted @ 2016-08-20 17:47 夕月一弯阅读(370) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

夕月一弯

当你的才华还支撑不起你的野心时，就应该静下心来学习！喷泉之所以漂亮是因为她有了压力；瀑布之所以壮观是因为她没有了退路；滴水之所以能穿石是因为她有了目标。

Locality Sensitive Hash 局部敏感哈希

公告

夕月一弯

当你的才华还支撑不起你的野心时，就应该静下心来学习！ 喷泉之所以漂亮是因为她有了压力；瀑布之所以壮观是因为她没有了退路；滴水之所以能穿石是因为她有了目标。

Locality Sensitive Hash 局部敏感哈希

公告

当你的才华还支撑不起你的野心时，就应该静下心来学习！喷泉之所以漂亮是因为她有了压力；瀑布之所以壮观是因为她没有了退路；滴水之所以能穿石是因为她有了目标。