摘要: 当HiveQL跑不出来时,基本上是数据倾斜了,比如出现count(distinct),groupby,join等情况,理解 MR 底层原理,同时结合实际的业务,数据的类型,分布,质量状况等来实际的考虑如何进行系统性的优化。 Hive on MR 调优主要从三个层面进行,分别是基于MapReduce优 阅读全文
posted @ 2019-11-22 17:46 时光快照 阅读(2090) 评论(0) 推荐(0) 编辑
摘要: 原文链接https://www.cnblogs.com/felixzh/p/8604188.html Map阶段包括: 第一读数据:从HDFS读取数据 1、问题:读取数据产生多少个Mapper? Mapper数据过大的话,会产生大量的小文件,由于Mapper是基于虚拟机的,过多的Mapper创建和初 阅读全文
posted @ 2019-11-22 17:00 时光快照 阅读(6125) 评论(0) 推荐(0) 编辑