HDFS的HA

为什么要用集群

在企业中主要使用集群

在学习的过程中使用伪分布式即可,就是单点

HDFS中的

NN

SNN

DN

YARN 的

RM 老大

NM

每个组件只有一个即可

如果nn挂了就不能再继续对外提供服务,例如客户端请求的读写,put get那些。

为了解决这个问题,企业一般都会准备两台nn,对外提供服务的只有一台,处于active状态,另一台是standby状态,进行实时备份随时准备从standby状态切换到active状态

同时,拥有两台nn基本上就不需要snn了,因为nn会进行实时备份,而snn只是进行合并备份的工作,一个小时checkpoint。如果用snn只能恢复checkpoint点的数据,如果中途挂掉,那中间那半小时的数据就会丢失。

主从架构 master-slave
比如hdfs读写请求都是先NN节点;
但是:hbase 读写请求不是经过老大master

 

命名空间:当我们有两台nn的时候分别为nn1和nn2,我们执行HDFS命令和我们只有一台nn进程有什么区别呢?

hdfs dfs -ls /  这是我们在伪分布里执行的HDFS命令。当我们执行这个命令的时候,就会去core.site.xml和hdfs.site.xml两个配置文件里去寻找配置的信息,以便于找到服务器执行相应的命令。

但是当我们有两个nn进程的时候上边的那个命令就不能这样执行了,要加上你要执行命令的服务器名称等等

hdfs dfs -ls hdfs://ip:9000 / 这两个nn分别对应着两个ip,这里的ip是谁就通过哪个执行命令。但是在shell脚本或者代码之中,如果active的nn挂了,我们再执行命令的时候不可能再改代码改脚本,所以这里引出一个命名空间的概念,我们的脚本或者代码先连接命名空间,命名空间再去尝试连接active的nn,这个过程我们是无感知的。

命名空间的工作流程,命名空间从客户端接到命令以后,会先尝试连接其中一台nn,这里我们就假设先连接nn2,发现nn2是standby状态,然后再去尝试连接nn1,发现是active状态,这时候nn1会接受请求并执行命令。

 

 

 

- 流程
- 1、客户端根据命名空间发起请求
- 2、命名空间按照配置顺序寻找active节点
- 3、NN1记录editlog并写入JN集群
- 4、NN2节点实时读取JN集群的数据,并进行重演

- 重点
- 1、DN节点会向所有的NN节点汇报心跳状况
- 2、ZKFC是单独的进程

 

HDFA的 HA的架构部署

环境准备  3台机器

hadoop001:ZK NN ZKFC JN DN

hadoop002:ZK NN ZKFC JN DN

hadoop003:ZK JN DN

每个组件的作用

 NN:fsimage editlog(读写请求记录)

ZK(2n+1 奇数台):负责选举,决定active和standby在哪台节点

ZKFC(zookeeperFailOverControl):节点真正挂掉,负责将standy状态的节点切换到active状态

JN:同步editlog的进程

ZK是一个单独的进程集群

以下是企业ZK集群部署台数参考

20台节点: 5台
20~100台节点: 7/9/11台
>100台节点: 11台
但是: 不是说zk节点越多越好,因为zk节点越多做出选举的决策的时间就越长。

几百台节点, zk部署的机器就它一个进程,这是为了提高选举效率

 

HA出现的主要原因就是为了解决单点问题,监控状态自动备援

通过jn共享状态

ZKFC

通过ZKFC切换nn的syandby状态到active状态

ZKFC是一个单独的进程

向ZK集群定期发送心跳,使得自己可以被选举

监控NN的健康状态

当自己被选为active的时候,ZKFC通过RPC协议调用使standby的节点切换为active状态,对外提供服务。这个过程是无感知的。

DN

同时向NN1和NN2发送心跳和块报告

active的NN:

操作记录写到自己的editlog

同时把editlog里的内容写到JN集群里

接收DN的心跳和块报告

standby的NN

接收JN的集群日志

显示读取执行log操作(重演),使得自己的元数据和active的nn的数据保持一致

也要接收DN的心跳和块报告。

 

 

 

 

 

posted @ 2019-04-05 11:43  任重而道远的小蜗牛  阅读(493)  评论(0编辑  收藏  举报