大数据学习之hadoop的优化16

hadoop优化

1）mr程序的效率瓶颈

功能：分布式离线计算

->计算机性能 CPU、内存、磁盘、网络

->I/O操作优化

（1）数据倾斜（代码优化）

（2）map和reduce数设置不合理

（3）map运行时间太长，导致reduce等待过久

（4）小文件过多（combineTextInputFomrat小文件合并）

（5）不可分块的超大文件（不断的溢写）

（6）多个溢写小文件需要多次merge

2）mr优化方法

六个方面考虑：数据输入、Map阶段、Reduce阶段、IO传输、数据倾斜、参数调优

1>数据输入

（1）合并小文件：在执行mr任务前就进行小文件合并

（2）采用CombineTextInputFormat来作为输入，解决输入端大量小文件的场景 mr并不适合处理大量小文件

2>Map阶段

（1）减少溢写次数（就是shuffle过程中的缓冲区，默认是100M 80%。现在增加内存200M 80%=160）

<name>mapreduce.task.io.sort.mb</name>

</property>

或者调高溢写比例

<name>mapreduce.map.sort.spill.percent</name>

</property>

（2）减少合并次数（默认是10个文件就进行合并。我们可以调高合并文件个数。用来达到减少合并次数）

<name>mapreduce.task.io.sort.factor</name>

</property>

（3）在map之后，不影响业务逻辑情况下进行combiner

3>Reduce阶段

（1）合理设置map与reduce个数

（2）设置map/reduce共存设置运行一定程度的map运行后启动reduce减少等待时间

（这里最好不要调成0.00，应为你调成0还是要等带Map阶段运行产生的数据，反而不好。个人介意不用调这个，只是做个了解就行了）

<name>mapreduce.job.reduce.slowstart.completedmaps</name>

</property>

（3）合理设置reduce端的buffer

<name>mapreduce.reduce.markreset.buffer.percent</name>

</property>

4>传输

（1）进行数据压缩

（2）使用sequenceFile（还是处理小文件的方法，一般用于自定义输出）

5>数据倾斜

（1）进行范围分区

（2）自定义分区（默认是hash分区，我们之前就写了一个用电话号码的前3位数进行了分区）

（3）Combine 就一行代码

（4）能用mapjoin坚决不用reduce join

6>参数调优

设置核心数

map核心数设置：

<name>mapreduce.map.cpu.vcores</name>

</property>

reduce核心数设置：

<name>mapreduce.reduce.cpu.vcores</name>

</property>

设置内存

maptask内存设置：

<name>mapreduce.map.memory.mb</name>

</property>

reducetask内存设置：

<name>mapreduce.reduce.memory.mb</name>

</property>

reduce去map端拿数据并行度（就像java中的多线程）

<name>mapreduce.reduce.shuffle.parallelcopies</name>

</property>

=========================================================

Hadoop框架就学完了。明天开始学习Zookeeper

posted @ 2019-05-15 12:24 大魔王阿黎阅读(167) 评论(0) 编辑收藏举报

刷新页面返回顶部

大魔王阿黎

大数据学习之hadoop的优化16

hadoop优化

1）mr程序的效率瓶颈

2）mr优化方法

1>数据输入

2>Map阶段

3>Reduce阶段

4>传输

5>数据倾斜

6>参数调优

公告

1>数据输入