会员
周边
众包
新闻
博问
闪存
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
大数据学习路线及实战手册
hadoop,mapreduce,hive,hbase,storm,mahout,python,spark,zookeeper
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
2014年8月14日
Hadoop的Reduce Join+BloomFilter实现表链接
摘要: 适用于场景连接的列数据量很大,在分布式缓存中无法存储时,Bloom Filter 可解决这个问题,用很小的内存可有MAP端过滤掉不需要JOIN的数据,这样传到REDUCE的数据量减少,减少了网络传及磁盘IO。缺点Bloom Filter 会有一定的错误率,但是错误率很低,用空间换取了时间。并且,最终...
阅读全文
posted @ 2014-08-14 14:49 netskill
阅读(527)
评论(0)
推荐(0)
编辑
上一页
1
2