Hive Map数据长尾问题
个人实践(数据倾斜):
1.当大表join小表时,将小表转化为内存即可,即开启小表优化。
(set hive.auto.convert.join=true;)
2.尽量避免count(distinct xxx)的使用,如果存在重复行,则在子查询中先进行group by去重操作。
(set hive.groupby.skewindata=true)
3.小文件问题,当上线之前存在测试的少量数据,则先进行删除操作,再进行计算。或者开启map端小文件聚合
(set hive.map.aggr=true)
Map倾斜:
原因与方法:
拓展:
posted on 2020-11-25 18:37 RICH-ATONE 阅读(755) 评论(0) 编辑 收藏 举报