Bloom Filter（布隆过滤器）

　　Bloom Filter是一种空间效率很高的随机数据结构，它利用位数组很简洁地表示一个集合，并能判断一个元素是否可能属于这个集合。

　　它的优点是空间效率和查询时间都远远超过一般的算法，缺点是有一定的误识别率和删除困难。

　　初始状态时，Bloom Filter是一个包含m位的位数组，每一位都置为0。

　　对于n个元素的集合，Bloom Filter使用k个相互独立的哈希函数，它们分别将集合中的每个元素映射到位数组中。对任意一个元素x，哈希函数映射的位置就会被置为1。

　　如果一个位置多次被置为1，那么只有第一次会起作用，后面几次将没有任何效果。

　　在下图中，k=3，也就是有3个相互独立的哈希函数，元素x1分别被映射到位置2,5,9，元素x2分别被映射到位置5,7,11。

　　如果要判断某个元素x是否在这个集合里，对x应用这k个哈希函数，如果映射的位置都被置1了，就说明元素x可能在这个集合中，如果某一个位置为0，说明元素x一定不在这个集合中。

应用场景：

　　一组元素存在于磁盘中，数据量特别大，应用程序希望在元素不存在的时候尽量不读磁盘，此时，可以在内存中构建这些磁盘数据的BloomFilter，对于一次读数据的情况，分为以下几种情况：

　　请求的元素不在磁盘中：

　　　　如果BloomFilter返回不存在，那么应用不需要走读盘逻辑；

　　　　如果BloomFilter返回可能存在，那么属于误判情况。

　　请求的元素在磁盘中：

　　　　BloomFilter返回存在。

下面摘自维基：

　　如果想判断一个元素是不是在一个集合里，一般想到的是将集合中所有元素保存起来，然后通过比较确定。链表，树，哈希表等等数据结构都是这种思路。但是随着集合中元素的增加，我们需要的存储空间越来越大。同时检索速度也越来越慢。

　　布隆过滤器的原理是，当一个元素被加入集合时，通过K个散列函数将这个元素映射成一个位数组中的K个点，把它们置为1。检索时，我们只要看看这些点是不是都是1就（大约）知道集合中有没有它了：如果这些点有任何一个0，则被检元素一定不在；如果都是1，则被检元素很可能在。这就是布隆过滤器的基本思想。

优点：　

　　空间效率和查询时间都远远超过一般的算法，布隆过滤器存储空间和插入 / 查询时间都是常数O(k)。

　　另外, 散列函数相互之间没有关系，方便由硬件并行实现。

　　布隆过滤器不需要存储元素本身，在某些对保密要求非常严格的场合有优势。

缺点：

　　随着存入的元素数量增加，误算率随之增加。但是如果元素数量太少，则使用散列表足矣。

　　另外，一般情况下不能从布隆过滤器中删除元素。

posted @ 2018-10-31 11:27 __Meng 阅读(531) 评论(0) 编辑收藏举报

刷新页面返回顶部

__Meng