会员
周边
众包
新闻
博问
闪存
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
xcw0754
博客园
首页
新随笔
联系
订阅
管理
2018年2月5日
Bloom Filter (海量数据处理)
摘要: 什么是Bloom Filter 先来看这样一个 爬虫相关问题 :文件A中有10亿条URL,每条URL占用64字节,机器的内存限制是4G,现有一个URL,请判断它是否存在于文件A中(爬过的URL无需再爬)。如果有很多个URL需要判断呢? 分析之后我们可以发现,这就是快速query问题,通常查操作居多,
阅读全文
posted @ 2018-02-05 15:29 xcw0754
阅读(205)
评论(0)
推荐(0)
编辑
公告