1、开启hive作业mapreduce任务中间压缩功能: 对于数据进行压缩可以减少job中map和reduce task间的数据传输量。对于中间数据压缩,选择一个低cpu开销编/解码器要不选择一个压缩率高的编解码器重要很多。hadoop压缩的默认编解码器是DefaultCodec,可以通过设置参数m Read More
posted @ 2018-08-27 15:16 kwz Views(5830) Comments(0) Diggs(0) Edit
1、hive中控制并行执行的参数有如下几个: $ bin/hive -e set | grep parall hive.exec.parallel=false hive.exec.parallel.thread.number=8 hive.stats.map.parallelism=1 其中:hiv Read More
posted @ 2018-08-27 15:13 kwz Views(653) Comments(0) Diggs(0) Edit
一、调整hive作业中的map数 1.通常情况下,作业会通过input的目录产生一个或者多个map任务。主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改) Read More
posted @ 2018-08-27 15:10 kwz Views(1049) Comments(0) Diggs(0) Edit