Hive Map数据长尾问题
摘要:
个人实践(数据倾斜): 1.当大表join小表时,将小表转化为内存即可,即开启小表优化。 (set hive.auto.convert.join=true;) 2.尽量避免count(distinct xxx)的使用,如果存在重复行,则在子查询中先进行group by去重操作。 (set hive. 阅读全文
posted @ 2020-11-25 18:37 RICH-ATONE 阅读(753) 评论(0) 推荐(0) 编辑