Hive调优与数据倾斜优化

一、Hive调优策略

架构调优
1、执行引擎：Hive默认使用的是MR，可以换为Tez，Tez将多个mapReduce任务合并成一个较大的DAG任务，减少mapreduce迭代过程中文件存储，其他的引擎可以是spark，flink等；
2、分区分桶表：对于一张较大的表，将其设计成分区表可以提高查询性能，一般是日期；分桶表的组织方式是将HDFS上的文件分割成多个文件，分桶表可以加快数据的抽样，提升JOIN的性能；
3、文件存储格式：Hive默认使用TextFile，可以指定为SequenceFile，Parquet，ORC等格式；其中Parquet等列式存储需要TextFile作为跳板；
4、文件压缩格式：减少map和reduce之间的数据传输，从而可以提升查询性能
```
--开启压缩
SET hive.exec.compress.intermediate=true
-- 中间结果压缩 
SET hive.intermediate.compression.codec=org.apache.hadoop.io.compress .SnappyCodec  
-- 输出结果压缩 
SET hive.exec.compress.output=true; 
SET mapreduce.output.fileoutputformat.compress.codec = org.apache.hadoop.io.compress.SnappyCodc
```
参数调优
1、使用本地模式：当Hive处理小数据量时，启动分布式查询会浪费时间，Hive支持将作业转为本地模式，需要开启一下配置
```
SET hive.exec.mode.local.auto=true
```
2、严格模式：主要包含三种类型的SQL，一旦执行将报错，分别是查询分区表时不限定分区列的语句；两表JOIN产生笛卡尔积的语句；使用order by排序时没有limit语句
```
SET hive.mapred.mode=nostrict
```
3、JVM重用：默认情况下hadoop会为每一个map task和reduce task启动一个JVM，这样可以并行执行任务。当某个task是轻量级的作业时，JVM的启动要比作业的执行时间还要长。此时hadoop可以重用JVM，通过共享JVM以串行的方式运行task；当然存在不好的地方是，启动的JVM会一直占用task插槽，直到任务运行结束才释放，比如存在不平衡的job，少数几个map或者reduce task执行时间长的话该JVM会空闲。
```
SET mapreduce.job.jvm.numtasks=4
```
4、合并小文件
```
--在map task执行前合并小文件
set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFo rmat; 

--在reduce结束时合并小文件
SET hive.merge.mapfiles = true; 
SET hive.merge.mapredfiles = true;
SET hive.merge.size.per.task = 268435456;  
SET hive.merge.smallfiles.avgsize = 16777216;
```
5、Fetch模式：Hive中对于某些查询不必使用MapReduce计算，可以简单的读取对应的存储文件，输出结果， hive.fetch.task.conversion=more
SQL调优
1、列裁剪和分区裁剪
2、sort by代替order by
3、group by代替count(distinct col)
4、处理空值与无意义的值
5、单独处理热KEY
6、JOIN优化
7、GROUP BY配置调整
```
--map端预聚合：即在map端启动一个combiner做预聚合，减少shuffle的数据量，减少io传输
set hive.map.aggr=true

--倾斜均衡配置项：group by时某些key的数据量过大，会发生数据倾斜; 原理为启动两个MR，第一个job将map的数据随机写入reducer，做部分聚合，第二个job在进行聚合
set hive.group.skewindata=true
```
8、合理的设置map数和reduce数
　　map数处理：map数量主要和输入文件总数，输入文件大小，hdfs文件快大小；map数量并不是越多越好，一个任务有很多小文件，每个文件会启动一个map任务，会造成资源浪费；当一个文件接近128M时，假设它字段很少，但行数很多，但其处理逻辑比较复杂，使用就一个map去做，性能也不会很好；
　　reduce数处理：可以设置set mapred.reduce.tasks=n，不设置会自动下推，当然reduce也不是越多越好，reduce太多，生成的小文件越多，对hdfs造成压力；reduce数量太少，每个reduce要处理很多数据，容易拖慢运行时间或者造成OOM

二、数据倾斜出现场景以及解决

　　总的来说，出现数据倾斜主要两个原因：一是任务中需要处理大量相同的key的数据；二是任务读取不可分割的大文件；一个发生在reduce中，一个发生在map中，map中一般由于文件不可切分，Gzip格式的

空值引发的数据倾斜
有时业务数据存在大量的null值或者无意义的值，在JOIN中，所有的null值将分配到一个reduce中，必然产生数据倾斜

--过滤null值，不参与处理逻辑
if(col is null, concat('rand_', rand()))

--join
select * from a left join b on case when a.col_name is null then concat('rand_', rand()) else a.col_name end = b.col_name

不同数据类型产生的数据倾斜
数据膨胀引发的数据倾斜
不可拆分大文件引发数据倾斜
表连接时发生的数据倾斜：1）大表join小表：map join，需要关注小表数据量 2）裁剪，二次聚合，热key分离，key值采样
GROUP BY 引发的数据倾斜
SQL语句自身存在的数据倾斜：collect_set，调整reduce的内存大小

posted @ 2021-11-22 15:46 Shydow 阅读(481) 评论(0) 编辑收藏举报

刷新页面返回顶部

Shydow

Hive调优与数据倾斜优化

公告