搞懂ZooKeeper到底是做啥的

一.ZooKeeper是啥

ZooKeeper概念

  ZooKeeper是一个开源的分布式协调服务(a service for coordinating processes of distributed applications),由雅虎公司创建,是Google Chubby的开源实现(Google Chubby是有名的分布式锁服务,GFS和Big Table等大型系统都用它来解决分布式协调、Master选举等一系列与分布式锁服务相关的问题)。分布式程序可以基于ZooKeeper实现负载均衡,命名服务,分布式锁等功能。ZooKeeper将全量数据都存在内存中,实现提高服务器吞吐、减少延迟的目的。

  上面的英文说的足够简而意赅了,a service for coordinating processes of distributed applications。是为了协调分布式应用的,到底解决什么样的问题呢。相信大家的Java基础都不错,个人觉得还是拿锁举例子比较好理解,在单机式中,我们想保证多个线程争抢,最后只有一个线程争抢到执行权(锁)并执行你想要让他做的业务代码,最简单的方式,可以用:

synchronized (obj){
    //业务逻辑
}

  那么在分布式的情况下呢?怎么保证,同一个服务部署在不同机器上实现如上目标呢?那么这就是分布式协调服务要干的事情。分布式协调远远比同一个进程里的协调复杂得多,所以类似Zookeeper这类分布式协调服务就应运而生。在解决分布式数据一致性上,除了ZooKeeper,目前没有一个成熟稳定且被大规模应用的开源方案。且越来越多的大型分布式项目如HBase、Storm都已经使用ZooKeeper作为其核心组件,用于分布式协调。

  ZooKeeper可以保证如下分布式一致性特性:

  • 顺序一致性:从同一客户端发起的事务请求,最终将会严格地按照其发起顺序被应用到ZooKeeper中
  • 原子性:要么整个集群所有机器都成功应用了某个事务,要么都没有应用
  • 单系统镜像:无论客户端连接的是哪个ZooKeeper服务器,其看到的服务器数据模型都是一致的(当然,ZooKeeper就是解决分布式数据一致性问题的)
  • 可靠性:一个服务端成功地应用了一个事务,并完成对客户端的响应,那么该事务所引起的服务端状态变更将会被一致保留下来,除非有另一个事务又对其进行了变更
  • 实时性:ZooKeeper仅保证在一定时间段内,客户端最终一定能从服务端上读取到最新的数据状态。也就是说比方说一个ZooKeeper集群,有一个时间点,数据在集群中的每个服务器不是一致的,ZooKeeper只保证最终一致性, 但是实时的一致性可以由客户端调用自己来保证,通过调用sync()方法

ZooKeeper名字诞生

  在立项初期,考虑到之前内部很多项目都是使用动物的名字来命名的(例如著名的Pig项目),雅虎的工程师希望给这个项目也取一个动物的名字。时任研究院的首席科学家 Raghu Ramakrishnan 开玩笑地说:“在这样下去,我们这儿就变成动物园了!”此话一出,大家纷纷表示就叫动物园管理员吧,因为各个以动物命名的分布式组件放在一起,雅虎的整个分布式系统看上去就像一个大型的动物园了。而 Zookeeper 正好要用来进行分布式环境的协调,于是,Zookeeper 的名字也就由此诞生了。

 

ZooKeeper的核心概念

集群角色

  在ZooKeeper中,集群有3个角色:Leader、Follower和Observer三种角色。

  Leader:ZooKeeper集群中所有机器通过选举过程选定集群中的一台机器为Leader,事务请求唯一调度者和处理者,保证集群事务处理的顺序性

  Follower:为客户端提供读服务、参与Leader选举过程、参与写操作的“过半写成功”策略,收到写事务请求直接转发给Leader

  Observer:为客户端提供读服务,在不影响集群事务处理能力的前提下提升集群的非事务处理能力

 

会话

  Session是ZooKeeper中的会话实体,代表了一个客户端会话,一个客户端连接指客户端和服务器之间的一个TCP长连接。通过这个连接,客户端能够做以下事情

  -  向ZooKeeper服务器发送请求并接收响应

  -  心跳检测

  -  接收来自服务器的Watch事件

数据节点(Znode)

  数据节点(Znode)是指数据模型中的数据单元,ZooKeeper内存数据存储的核心是DataTree,是一个树的数据结构,代表了内存中的一份完整的数据,由斜杠"/"进行分割的路径,就是一个Znode,每个Znode都保存自己的数据内容

版本

  每个Znode都有三种类型的版本信息,对节点数据变动会引起版本号变化

  version:当前数据节点数据内容的版本号

  cversion:当前数据节点子节点的版本号

  aversion:当前数据节点ACL变更版本号

Watcher

  事件监听器(Watcher)是ZooKeeper非常重要的特性,我们可以在节点上注册Watcher,并且在一些特性事件触发时候,服务器将事件通知到客户端上

ACL

  ZooKeeper使用ACL(Access Control Lists)权限控制机制保证数据安全,有5个权限:

  CREATE:创建子节点的权限

  READ:获取节点数据和子节点列表的权限

  WRITE:更新节点数据的权限

  DELETE:删除子节点的权限

  ADMIN:设置节点ACL的权限

 

二.ZooKeeper能做啥

  我们可以回头看最上面的图,Hbase,Hadoop,Kafka等已经被广泛应用在越来越多的大型分布式系统中,用来解决诸如配置管理,分布式通知/协调、集群管理和Master选举等一系列分布式问题

  ZooKeeper在阿里的实践有Dubbo,消息中间件Metamorphosis,分布式数据库同步系统Otter,实时计算引擎Jstorm等

  • 数据发布/订阅(配置中心)
  • 负载均衡
  • 分布式协调/通知
  • 集群管理
  • Master选举
  • 分布式锁

 

三.ZAB协议是啥

  可以这么说,No ZAB,No ZooKeeper。ZAB协议是整个ZooKeeper框架的核心所在。

  ZooKeeper是一个高可用的分布式数据管理与协调框架。基于对ZAB算法的实现,ZooKeeper成为了解决分布式环境中数据的一致性问题的利器。ZAB协议的全称是ZooKeeper Atomic Broadcast(ZooKeeper原子消息广播协议)。ZAB协议是一种特别为ZooKeeper设计的崩溃可恢复的原子消息广播算法。

  所有事务请求必须由唯一的Leader服务器来协调处理,其他服务器则成为Follower服务器。Leader服务器负责将事务请求转换成一个提议,并将该提议分发到集群中的所有Follower服务器,之后Leader服务器需要等待所有Follower的响应,一旦超过半数的Follower服务器进行了正确的反馈后(不需要等待集群中所有的Follower服务器都反馈响应),那么Leader就会再次向所有Follower服务器分发Commit消息,要求对前一个提议进行提交。

 

术语解释

  首先先来看一下选举算法出现的一些专有术语

SID:服务器ID

  SID是一个数据,标识一台ZooKeeper集群中的机器,SID不能重复,和myid值一样。(集群的配置文件中,server.id=host:port:port,这里的id就是myid,我们还需要在dataDir参数的目录创建myid文件,就是这里的id)

ZXID:事务ID

  ZXID是一个事务ID,标记唯一一次服务器状态的变更,某一时刻,集群中的每台机器的ZXID不一定都一致,之前已经说过了。它是一个64位的数字,低32位可以看作递增计数器,高32位代表Leader周期epoch的编号

Vote:投票

  我们可以看下Vote的数据结构:

  接下来我们来解释一下每个字段的意思:

  id:被选举的Leader的SID值

  zxid:被选举的Leader的事务ID

  electionEpoch:逻辑时钟

  peerEpoch:被选举的Leader的epoch

  state:当前服务器的状态

Quorum:过半机器数

  quorum=(n/2+1),假如集群总数是3,那么quorum就是2

 

ZAB协议三个阶段

阶段一:发现

  阶段一就是Leader选举过程(服务器启动期间或者服务器运行期间),服务器的状态进入LOCKING状态。进入选举Leader流程。

  不要死记硬背具体规则,总结简单来说,哪台服务器上的数据较新,也就是它的ZXID越大,那么越有可能成为Leader。如果几个服务器具有相同的ZXID,那么SID较大的服务器成为Leader。

  规则1:如果收到投票的ZXID大于自身的ZXID,就认可收到的投票再次投出去

  规则2:如果收到投票的ZXID小于自身的ZXID,则坚持自己的投票不做任何变更

  规则3:如果收到投票的ZXID等于自身的ZXID,则对比两者SID,如果收到投票的SID大于自身的SID则认可收到的投票再次投出去

  规则4:如果收到投票的ZXID等于自身的ZXID,并且收到投票的SID小于自身SID则坚持自己的投票不做任何变更

  接下来举个例子来说明选举的过程:

  过程A:我们假设ZooKeeper由5台机器组成,SID分别为1,2,3,4,5。ZXID分别为9,9,9,8,8。此时SID为2的机器是Leader服务器,某一时刻SID为1和2的机器出现故障,因此集群开始进行Leader选举,state切换到LOCKING状态。

  过程B:第一次投票,每台机器都选自己作为被选举的对象来进行投票,所以SID为3,4,5的投票情况为(这里Vote做简化,只有SID和ZXID):(3,9),(4,8),(5,8)。

  过程C:Server3收到(4,8)和(5,8)。根据规则2,不做任何投票的变更。

       Server4收到(3,9)和(5,8)。根据规则1,需要变更投票为(3,9)。

         Server5同样的变更投票为(3,9)。

  过程D:第二轮投票后,Server3收到超过一半的票数,成为Leader

阶段二:同步

  选举完成后,Leader服务器会为每一个Follower服务器都准备一个队列,并将那些没有被各Follower服务器同步的事务以Proposal消息的形式逐个发送给Follower服务器,然后在提议消息之后紧接发送一个Commit消息,表示该事务被提交,等到Follower服务器都将未同步的事务从Leader服务器同步过来并成功应用到本地数据库后,Leader服务器会将该Follower服务器加入真正可用的Follower列表中

阶段三:广播

  Leader服务器会给每个Follower分配一个FIFO的队列来分送事务,Follower服务器收到事务Proposal之后以事务日志的形式写入本地磁盘,写入成功会给Leader服务器回复一个ACK。

  当Leader服务器收到过半的ACK响应则广播发送Commit消息给所有Follower,然后所有服务器完成对事务的提交。

 

posted @ 2019-05-26 09:52  GrimMjx  阅读(3718)  评论(1编辑  收藏  举报