谈谈布隆过滤器(比哈希表省很多内存,简言之更牛逼）

之前就阅读过数学之美，知道有这么个基础的算法，可是因为不常用到也就没当回事，最近重新看到它觉得很高大上，就想来mark下

设计初衷：
（Bloom Filter）是由布隆（Burton Howard Bloom）在1970年提出的，不知道当时布隆为啥想到设计时究竟是碰到了啥问题，但这确实很有效
**来看下面的问题：
1.检查一个单词是否拼写正确->看它是否在已经字典中
2.网络爬虫->一个网址是否访问过
3.邮件过滤，建立那些发垃圾邮件的地址的黑名单**

你可能会说哈希表不就行了吗，但在2,3的问题中，网页和垃圾邮件地址全球动不动便是几十亿那，哈希的存储效率也就50%左右
一亿Email（一个占16字节）约为1.6GB内存，要是几十亿个地址就几百GB，谁家这么有钱，都去建天河二号
所以啊，能不能少花点内存来干这事：于是布隆过滤器来了，只要12.5%到25%的哈希表空间就能干这事，但是有点小错误，这个小错误概率太小就基本不担心了

工作原理：
一亿Email => 16亿二进制（bit)==2亿字节（哈希就是16亿字节了）

1.先全部位清0，对每一个电子邮件地址X，用8个不同的随机数产生器（F1，F2，..F8)产生8个信息指纹（比如md5),

2.然后用一个统一的随机数产生器G把这8个信息指纹=>8个自然数g1,g2,g3..,g8,这些位置上的位置为1

1亿个地址放入建好这个布隆过滤器

然后新来一个，同样处理，对应8个二进制位 t1,t2,…,t8
如果全为1，好的=>判定位垃圾邮件

你会想了，这样靠谱不，万一把非垃圾邮件误判了咋办

我们来看看误判的概率：
先来算任何一个位被置为1的概率p，这样你可以简单的就知道
新来一个，有8个位，如果被误判了，此时这8个位全为1，其概率为

p 8

我们来推到下一般的情况，假设有m个位，n个元素，有k个哈希函数，
针对单个元素插入来说：

任 一 个 位 被 置 为 1 的 概 率 ： 1 / m

K 个 函 数 都 没 有 把 它 置 为 1 ： （ 1 - 1 / m) k

插 入 了 那 个 元 素 依 然 没 有 被 置 为 1 ： （ 1 - 1 / m) k n

反 过 来 说 ， 一 个 位 被 置 为 1 ： 1 - （ 1 - 1 / m) k n

同样的新来一个，要命中其概率为：

1−[1−1/m]kn)k近似（1−e−kn/m)k
上次k=8,n/m=1/16,计算值大约在万分之五，误判率非常低，基本可容忍。*

posted @ 2016-04-24 12:55 Free_Open 阅读(6200) 评论(1) 收藏举报

刷新页面返回顶部

谈谈布隆过滤器(比哈希表省很多内存,简言之更牛逼）

之前就阅读过数学之美，知道有这么个基础的算法，可是因为不常用到也就没当回事，最近重新看到它觉得很高大上，就想来mark下

1.先全部位清0，对每一个电子邮件地址X，用8个不同的随机数产生器（F1，F2，..F8)产生8个信息指纹（比如md5),

2.然后用一个统一的随机数产生器G把这8个信息指纹=>8个自然数g1,g2,g3..,g8,这些位置上的位置为1

公告