摘要:随着hadoop集群数据量增大,以及机器的不断扩容,修改副本数量降本增效是很常见的做法 1、配置hdfs-site.xml参数 dfs.replication <property> <name>dfs.replication</name> <value>2</value> </property> 注
阅读全文
摘要:操作针对2.7.x版本的Hadoop 1、首先停止已经启动的hadoop [hadoop@localhost ~]$ stop-all.sh 2、然后查看hadoop配置文件hdfs-site.xml,确定dfs.namenode.name.dir、dfs.datanode.data.dir以及ha
阅读全文
摘要:YARN 运维、巡检、监控、调优、排障 (涉及内存大小配置问题)
阅读全文
摘要:Hadoop完全分布式配置前言Hadoop的安装分为单机方式、伪分布式方式和完全分布式方式。a. 单机模式是Hadoop的默认模式。当首次解压Hadoop的源码包时,Hadoop无法了解硬件安装环境,便保守地选择了最小配置。在这种默认模式下所有3个XML文件均为空。当配置文件为空时,Hadoop会完
阅读全文
摘要:1、书写MapReduce 代码进行替换 2、通过shell脚本进行提换(比如sed进行替换) 参考: hadoop对文本中字符替换 替换HDFS中的control-m字符
阅读全文
摘要:在很多时候,修改了hadoop的配置后,希望立即生效,但是线上还有任务在执行,不能重启,可以执行以下命令让修改后的hdfs/yarn配置生效; 0、刷新yarn集群的队列 执行命令: ${HADOOP_HOME}/bin/yarn rmadmin -refreshQueues 或 yarn rmad
阅读全文
摘要:对container进行如下总结: container是Yarn的资源抽象,封装了节点上的一些资源,主要是CPU与内存;container是AM向NM申请的,其运行是由AM向资源所在NM发起的,并最终运行的。有两类container:一类是AM运行需要的container;另一类是AP为执行任务向R
阅读全文
摘要:参考: https://github.com/huaweicloudDocs/mrs/blob/master/cn.zh-cn/%E6%95%85%E9%9A%9C%E6%8E%92%E9%99%A4/%E6%89%A7%E8%A1%8Cbalance%E5%B8%B8%E8%A7%81%E9%97
阅读全文
摘要:hadoop balancer集群平衡介绍Hadoop的HDFS集群非常容易出现机器与机器之间磁盘利用率不平衡的情况,比如集群中添加新的数据节点。当HDFS出现不平衡状况的时候,将引发很多问题,比如MR程序无法很好地利用本地计算的优势,机器之间无法达到更好的网络带宽使用率,机器磁盘无法利用等等。可见
阅读全文
摘要:关于hadoop中的DataNode和namenode之间的机制与联系: 写的清晰易懂,可以参考如下链接 https://segmentfault.com/a/1190000038718226
阅读全文
摘要:一、hadoop支持Lzo压缩配置 1)hadoop本身并不支持lzo压缩,故需要使用twitter提供的hadoop-lzo开源组件。hadoop-lzo需依赖hadoop和lzo进行编译,编译步骤如下。2)将编译好后的hadoop-lzo-0.4.20.jar 放入hadoop-2.7.2/sh
阅读全文
摘要:注意: 根据经验,使用容量调度器是最重要的两点是容量平衡占用百分比和弹性。(注意各个分层队列【父队列和子队列之间的比例配置】之间的容量配置) 这两者之间有一个折中:如果设置刚性容器限制(配置最大容量),则队列变得不那么有弹性,从而背离了容量调度器的关键目标之一。 容量计划支持以下功能: 等级队列-
阅读全文
摘要:jobhistory的配置 1、在yarn-site.xml中添加 <!-- 开启日志聚合 --> <property> <name>yarn.log-aggregation-enable</name> <value>true</value> </property> 2.在mapred-site.x
阅读全文
摘要:DataNode报错日志如下: 2021-07-05 16:30:53,595 FATAL org.apache.hadoop.hdfs.server.datanode.DataNode: Initialization failed for Block pool <registering> (Dat
阅读全文
摘要:Hadoop新增节点报错: 2021-06-28 16:02:12,489 INFO org.apache.hadoop.hdfs.server.datanode.DataNode: Block pool BP-433041383-192.168.10.249-1494331993586 (Data
阅读全文
摘要:拷贝命令 -cp 在HDFS文件系统中,将文件或目录复制到目标路径下Usage:hdfs dfs -cp [-f] [-p | -p [topax] ] URI [ URI …] < dest>选项:-f选项覆盖已经存在的目标。-p选项将保留文件属性[topx](时间戳,所有权,权限,ACL,XAt
阅读全文
摘要:HADOOP-promethues监控 Hadoop Exporter开源项目开发指南 https://github.com/opsnull/hadoop_jmx_exporter (on use)
阅读全文