netskill - 博客园

2014年8月14日

摘要：适用于场景连接的列数据量很大，在分布式缓存中无法存储时，Bloom Filter 可解决这个问题，用很小的内存可有MAP端过滤掉不需要JOIN的数据，这样传到REDUCE的数据量减少，减少了网络传及磁盘IO。缺点Bloom Filter 会有一定的错误率，但是错误率很低，用空间换取了时间。并且，最终... 阅读全文

posted @ 2014-08-14 14:49 netskill 阅读(554) 评论(0) 推荐(0)