摘要: 1)数据倾斜根本原因:由于数据分布不均匀,导致map端读取的数据分布不均匀(数据长尾分布),从而使得map处理的数据量差异过大。 (2)解决思路:Hive是分阶段执行的,map处理数据量的差异取决于上一个stage的reduce输出,所以解决的根本方法就是如何将数据均匀的分布到各个reduce中 ( 阅读全文
posted @ 2022-09-19 22:34 半个程序猿Cohen_Lee 阅读(1133) 评论(0) 推荐(0) 编辑