摘要: 转自:http://blog.csdn.net/wh_springer/article/details/51842496 近十年来,随着Hadoop生态系统的不断完善,Hadoop早已成为大数据事实上的行业标准之一。 1 Hive基本原理 Hadoop是一个流行的开源框架,用来存储和处理商用硬件上的 阅读全文
posted @ 2017-01-31 23:57 bonelee 阅读(2061) 评论(0) 推荐(0) 编辑
摘要: 准备数据 计算过程 默认设置了hive.map.aggr=true,所以会在mapper端先group by一次,最后再把结果merge起来,为了减少reducer处理的数据量。注意看explain的mode是不一样的。mapper是hash,reducer是mergepartial。如果把hive 阅读全文
posted @ 2017-01-31 23:21 bonelee 阅读(3989) 评论(0) 推荐(0) 编辑
摘要: 转自:http://blog.csdn.net/sn_zzy/article/details/43446027 SQL转化为MapReduce的过程 了解了MapReduce实现SQL基本操作之后,我们来看看Hive是如何将SQL转化为MapReduce任务的,整个编译过程分为六个阶段: Join的 阅读全文
posted @ 2017-01-31 23:04 bonelee 阅读(12590) 评论(0) 推荐(1) 编辑
摘要: 转自:http://blog.csdn.net/caomiao2006/article/details/52140993 由于GROUP BY 实际上也同样会进行排序操作,而且与ORDER BY 相比,GROUP BY 主要只是多了排序之后的分组操作。当然,如果在分组的时候还使用了其他的一些聚合函数 阅读全文
posted @ 2017-01-31 22:48 bonelee 阅读(25697) 评论(0) 推荐(0) 编辑