2014年8月14日
摘要: 适用于场景连接的列数据量很大,在分布式缓存中无法存储时,Bloom Filter 可解决这个问题,用很小的内存可有MAP端过滤掉不需要JOIN的数据,这样传到REDUCE的数据量减少,减少了网络传及磁盘IO。缺点Bloom Filter 会有一定的错误率,但是错误率很低,用空间换取了时间。并且,最终... 阅读全文
posted @ 2014-08-14 14:49 netskill 阅读(527) 评论(0) 推荐(0) 编辑