摘要: 一、数据倾斜的原因 数据倾斜就是由于数据分布不均匀,数据大量集中到一点上,造成数据热点。在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的 阅读全文
posted @ 2018-09-12 15:56 才华充电中 阅读(563) 评论(0) 推荐(0) 编辑