摘要: 问题呈现: 在hive中写SQL生成的MapReduce程序,卡了12个小时。 问题原因: 经过我的一番调查,认为是产生了数据倾斜,我的主表需要4个表一块union all,所以数据量还是很多的。 collect_list输出一个数组,中间结果会放到内存中,所以如果collect_list聚合太多数 阅读全文
posted @ 2022-01-27 14:39 猫七的blog 阅读(159) 评论(0) 推荐(0) 编辑