hadoop性能调优
1.平衡磁盘利用率
hadoop balancer -Threshold 20
或者
sh $HADOOP_HOME/bin/start-balancer.sh –t 20%
参数20是比例参数,表示20%,也就是平各个DataNode直接磁盘使用率偏差在20%以内。
threshold 默认设置:10,参数取值范围:0-100,参数含义:判断集群是否平衡的目标参数,每一个 datanode 存储使用率和集群总存储使用率的差值都应该小于这个阀值 ,理论上,该参数设置的越小,整个集群就越平衡,但是在线上环境中,hadoop集群在进行balance时,还在并发的进行数据的写入和删除,所以有可能无法到达设定的平衡参数值。
2.杀掉hadoop正在运行的job
$hadoop job -list
$hadoop job -kill job_201212111628_11166
坚持不懈