Hadoop高可用集群存在的一些共性问题

1.NameNode 偶然性挂掉

问题原因： 用群启脚本启动HA集群，启动过程中NameNode要依赖于JournalNode,所以在启动过程中， NameNode会主动连接JournalNode 但是 NN 和 JN启动是异步的，所以导致NN可能不会即时连接JN成功， NN 默认情况下会反复连接10次，每间隔1000毫秒连一次。

通过修改core-site.xml 以下默认配置

方法一：首先手动启动journalnode，再手动启动namenode

方法二：修改core-site.xml中的ipc参数

	方法二：修改core-site.xml中的ipc参数

	<property>
	<name>ipc.client.connect.max.retries</name>
	<value>100</value>
	<description>
	Indicates the number of retries a client will make to establisha server connection.
	</description>
	</property>
	
	<property>
	<name>ipc.client.connect.retry.interval</name>
	<value>10000</value>
	<description>Indicates the number of milliseconds a client will wait for
	before retrying to establish a server connection.
	</description>
	</property>

2.模拟将active状态的及其kill掉，自动故障转移时出现的问题

查看zookee中的信息，内容显示已经改变，但是在高可用集群中没有显示。

psmisc插件没装

[root@hadoop100 ~]# yum install -y  net-tools vim psmisc  nc  rsync  lrzsz  ntp libzstd openssl-static tree iotop git

3.高可用集群中为什么能使用原来中心化集群的群启脚本？

因为群启脚本最后作用于哪套Hadoop环境取决于 Linux的环境变量的配置！！！

posted on 2022-11-28 15:37 hbuwyf 阅读(70) 评论(0) 收藏举报

刷新页面返回顶部