布隆过滤器

布隆过滤器

布隆过滤器在海量数据的处理应用较为广泛,比如,怎么判断一亿个url里面是不是有重复的。布隆过滤器结合了bitmap和hash的思想,bitmap的做法是使用一个bit来表示某个对象是否有出现,但是其所需要的空间跟所处理对象的最大值有关。

布隆过滤器采用\(k\)个hash函数将对象hash成\(k\)个值,然后将bitmap中这\(k\)个对应的bit位置都设为1。在查询过程中,需要保证\(k\)个位置都是1的情况下,才认为该元素出现过。下面的示意图很好地揭示了布隆过滤器地原理。

那布隆过滤器就是引入了\(k(k>1)\)个相互独立的哈希函数,保证在给定的空间、误判率下,完成元素判重的过程。(来源于zdxiq000:https://blog.csdn.net/zdxiq000/article/details/57626464)

布隆过滤器的优点有:

  • 计算高效
  • 省空间

同样,也有一定的缺点

  • 不支持删除操作
  • 存在误判

下面是一段java代码,可以很好的揭示其运算过程

public class BloomFilter{
    private final int size;
    private final int hashCount;
    private final BitSet bitSet;

    public BloomFilter(int size, int hashCount){
        this.size = size;
        this.hashCount = hashCount;
        this.bitSet = new BitSet(size);
    }

    public void put(String key){
        for (int seed = 1; seed <= hashCount; ++seed){
            int hash = Hashing.murmur3_32(seed).hashBytes(key.getBytes()).asInt();
            int index = Math.abs(hash) % size;
            bitSet.set(index);
        }
    }

    public boolean lookup(String key){
        for (int seed = 1; seed <= hashCount; ++seed){
            int hash = Hashing.murmur3_32(seed).hashBytes(key.getBytes()).asInt();
            int index = Math.abs(hash)%size;
            if(!bitSet.get(index)) return false;
        }
        return true;
    }

}

class BloomFilterTest{
    public static void main(String[] args) {
        BloomFilter bf = new BloomFilter(3, 100);
        bf.put("123");
        bf.put("1234");
        bf.put("234");

        System.out.println(bf.lookup("234"));
    }
}

布隆过滤器的误差计算

假设哈希函数等概率地选择每个数组位置,即哈希后的值符合均匀分布,那么每个元素等概率地哈希到位数组的m个比特位上,与其他元素被哈希到哪些位置无关(独立事件)。设定数组总共有m个比特位,有k个哈希函数。在插入一个元素时,一个特定比特没有被某个哈希函数置为1的概率是:\(1 - \dfrac{1}{m}\)。插入一个元素后,这个比特没有被任意哈希函数置为1的概率是:\((1 - \dfrac{1}{m})^k\)。在插入了n个元素后,这个特定比特仍然为0的概率是:\((1 - \dfrac{1}{m})^{nk}\)。所以这个比特被置为1的概率是:\(1 - (1 - \dfrac{1}{m})^{nk}\)
现在检测一个不在集合里的元素。经过哈希之后的这k个数组位置任意一个位置都是1的概率如上。这k个位置都为1的概率是::\(\left(1 - (1 - \dfrac{1}{m})^{nk}\right)^k\),根据

\[\lim_{n->\infty}(1 + \dfrac{1}{n})^n = e \]

可以知道

\[\begin{split} \left(1 - (1 - \dfrac{1}{m})^{nk}\right)^k &= \left[1 - (1 - \dfrac{1}{m})^{-m\dfrac{nk}{-m}}\right]^k\\ &\approx \left[1 - e^{-\dfrac{nk}{m}}\right]^k \end{split} \]

\[k = \dfrac{m}{n}\ln{2 }$$时,有最小值$\ln p= -\dfrac{m}{n}(\ln 2)^2$\]

posted @ 2018-12-03 15:46  狂徒归来  阅读(176)  评论(0编辑  收藏  举报