Hadoop高可用集群存在的一些共性问题
1.NameNode 偶然性挂掉
问题原因: 用群启脚本启动HA集群,启动过程中NameNode要依赖于JournalNode,所以在启动过程中, NameNode会主动连接JournalNode 但是 NN 和 JN启动是异步的,所以导致NN可能不会即时连接JN成功, NN 默认情况下会反复连接10次,每间隔1000毫秒 连一次。
通过修改core-site.xml 以下默认配置
方法一:首先手动启动journalnode,再手动启动namenode
方法二:修改core-site.xml中的ipc参数
方法二:修改core-site.xml中的ipc参数 <property> <name>ipc.client.connect.max.retries</name> <value>100</value> <description> Indicates the number of retries a client will make to establisha server connection. </description> </property> <property> <name>ipc.client.connect.retry.interval</name> <value>10000</value> <description>Indicates the number of milliseconds a client will wait for before retrying to establish a server connection. </description> </property>
2.模拟将active状态的及其kill掉,自动故障转移时出现的问题
查看zookee中的信息,内容显示已经改变,但是在高可用集群中没有显示。
psmisc插件没装
[root@hadoop100 ~]# yum install -y net-tools vim psmisc nc rsync lrzsz ntp libzstd openssl-static tree iotop git
3.高可用集群中为什么能使用原来中心化集群的群启脚本?
因为群启脚本最后作用于哪套Hadoop环境取决于 Linux的环境变量的配置!!!