摘要: 介绍 接上篇,【搜索引擎(五)】局部敏感哈希,本篇介绍的也是一个不精确的算法,用来不精确地排除重复元素。 利用布隆过滤器,可以大大降低排重的时间。但是在实际中它的作用有限,还要结合其他的技巧才能达到较好的效果。另外,它本身不作为索引,如果不加处理地加以使用,在搜索引擎的快响应(小于1s)的目标中就不 阅读全文
posted @ 2017-11-13 17:54 stackupdown 阅读(671) 评论(0) 推荐(0) 编辑
摘要: 1.介绍 哈希是一种常用的数据摘要方法,可以把大段的数据映射成固定长度的字符串。在查找某个文档的时候,我们不希望每一次都比较大段的数据,以此来确定文档的位置,这样太过浪费生命了。只要实现计算好文档的哈希值,就可以只通过比较两个文档的哈希,查出匹配的文档,从而大大减少检索的时间。 传统的hash方法, 阅读全文
posted @ 2017-11-13 12:10 stackupdown 阅读(651) 评论(0) 推荐(1) 编辑