RICH-ATONE

Hive Map数据长尾问题

个人实践(数据倾斜):

1.当大表join小表时,将小表转化为内存即可,即开启小表优化。

(set hive.auto.convert.join=true;)

2.尽量避免count(distinct xxx)的使用,如果存在重复行,则在子查询中先进行group by去重操作。

(set hive.groupby.skewindata=true)

3.小文件问题,当上线之前存在测试的少量数据,则先进行删除操作,再进行计算。或者开启map端小文件聚合

(set hive.map.aggr=true)

 

Map倾斜:

原因与方法:

 

 

 

 

 

 

 

 

拓展:

Hive抽样及随机数抽样

Hive表进行关联查询解决长尾和数据倾斜问题

Hive性能优化及数据倾斜问题

 

posted on 2020-11-25 18:37  RICH-ATONE  阅读(718)  评论(0编辑  收藏  举报

导航