Hive之优化

Hive之优化

第一节：简介

hive的优化 --- mapreduce的优化

1个reducetask对应的数据量最好不超过2G

reducetask的个数最好不超过0.95*datanode的个数

第二节：优化手段

一、合理选择排序

二、合理做笛卡尔积

三、in/exists效率低

hive 高效实现手段

inner join

left semi join

四、insert选择

能使用多重插入，就不使用单重插入。

五、合理分桶

1、join 性能

合理的分桶会提升join的性能

posted @ 2020-07-21 14:49 整合侠阅读(155) 评论(0) 收藏举报

刷新页面返回顶部