随笔分类 - IR
摘要:上一年记录的东西,整理下... 需要代码联系我QQ:1198552415,本人不做义务咨询。 一.哈希检索概述 LSH是Locality Sensitive Hashing的缩写,也翻译为局部敏感哈希,是一种通过设计满足特殊性质即局部敏感的哈希函数,提高相似查询效率的方法。虽然从正式提出距今不过十余
阅读全文
摘要:感谢大神们的无私奉献精神........因此笔者要坚持开源,专注开源,开源就像在HPU的考试中不像其他人作弊一样,长远来看,会有巨大收获。一.背景介绍1.1 相似性搜索简介 高维相似性搜索在音频、图形和传感器数据等特征丰富的数据的基于内容的检索中日益重要,一般来说应用在KNN和ANN。一个针对...
阅读全文
摘要:一.摘要 最紧邻检索:一种树基于树结构,一种是基于hash a.随机投影算法,需要产生很多哈希表,才能提高性能。 b.基于学习的哈希算法在哈希编码较短时候性能不错,但是增加编码长度并不能显著提高性能。 随机投影:实际上就是随机的,实际上需要挖掘使用数据的内部结构,结合最大熵原理。 基于密度...
阅读全文
摘要:一.问题来源 来源于换关键字,从LSH转换为hash检索,这要感谢李某。二.解析 笔者认为关键思想是数据降维后使用矩阵旋转优化,其他和LSH一样的。2.1 PCA降维 先对原始空间的数据集X∈Rn×d用PCA进行降维处理,设经过PCA降维后的数据集为V∈Rn×c,该问题就可以转化为将该数据集中...
阅读全文
摘要:如果想要得到较高的精度,则需要较长的编码。编码长度m增长的话,则item碰撞的概率会成倍的减小,从而导致召回率下降。为了得到较高的召回率,则需要多个哈希表。 参考http://yongyuan.name/blog/approximate-nearest-neighbor-search.html
阅读全文
摘要:马克·吐温曾经说过,所谓经典小说,就是指很多人希望读过,但很少人真正花时间去读的小说。这种说法同样适用于“经典”的计算机书籍。 最近一直在看LSH,不过由于matlab基础比较差,一直没搞懂。最近看的论文里几乎都是用simHash来实现LSH,从而进行ANN。 有空看看基于滑动窗口的论文相似...
阅读全文
摘要:一.题外话 虽然是科普,不过笔者个人认为大道至简,也就是说越简单的东西很可能越值得探讨,或者另外一种说法越简单的东西越不好讲解;其实笔者认为这就是《编程之美》所要传递的——大道至简。 软件构建老师给我推荐的《走出软件作坊》还没看呢。二.概述 高维数据检索(high-dimentional re...
阅读全文
摘要:通过LSH hash functions我们能够得到一个或多个hash table,每个桶内的数据之间是近邻的可能性很大。我们希望原本相邻的数据经过LSH hash后,都能够落入到相同的桶内,而不相邻的数据经过LSH hash后,都能够落入到不同的桶中。如果相邻的数据被投影到了不同的桶内,我们称...
阅读全文
摘要:学到现在越来越感觉计算机网络、操作系统的重要性,组成原理到没感觉出来,求推荐资料,我想要的是描述性解释,教材不是我想要的,谢谢! 感觉自己的知识很老旧,在没有出国也没去高水平大学的条件下,只能通过网络学习了,感谢博客园。一.检索分类 在检索技术中,索引一直需要研究的核心技术。当下,索引技术主...
阅读全文
摘要:需要代码联系作者,不做义务咨询。需要代码联系我QQ:1198552415,本人不做义务咨询。 一.算法实现 基于p-stable分布,并以‘哈希技术分类’中的分层法为使用方法,就产生了E2LSH算法。 E2LSH中的哈希函数定义如下: 其中,v为d维原始数据,a为随机变量,由正态分布产生; w为宽度
阅读全文
摘要:搜集了快一个月的资料,虽然不完全懂,但还是先慢慢写着吧,说不定就有思路了呢。 开源的最大好处是会让作者对脏乱臭的代码有羞耻感。 当一个做推荐系统的部门开始重视【数据清理,数据标柱,效果评测,数据统计,数据分析】这些所谓的脏活累活,这样的推荐系统才会有救。 求教GitHub的使用。 简单不...
阅读全文