【大数据】ZooKeeper

Apache ZooKeeper
1. Zookeeper基本知识
  1. ZooKeeper概述

Zookeeper是一个分布式协调服务的开源框架。主要用来解决分布式集群中应用系统的一致性问题。

ZooKeeper本质上是一个分布式的小文件存储系统。提供基于类似于文件系统的目录树方式的数据存储，并且可以对树中的节点进行有效管理。从而用来维护和监控你存储的数据的状态变化。通过监控这些数据状态的变化，从而可以达到基于数据的集群管理。

1. 1. ZooKeeper特性
全局数据一致：集群中每个服务器保存一份相同的数据副本，client无论连接到哪个服务器，展示的数据都是一致的，这是最重要的特征；
可靠性：如果消息被其中一台服务器接受，那么将被所有的服务器接受。
顺序性：包括全局有序和偏序两种：全局有序是指如果在一台服务器上消息a在消息b前发布，则在所有Server上消息a都将在消息b前被发布；偏序是指如果一个消息b在消息a后被同一个发送者发布，a必将排在b前面。
数据更新原子性：一次数据更新要么成功（半数以上节点成功），要么失败，不存在中间状态；
实时性：Zookeeper保证客户端将在一个时间间隔范围内获得服务器的更新信息，或者服务器失效的信息。

1. 1. ZooKeeper集群角色

Leader:

Zookeeper集群工作的核心

事务请求（写操作）的唯一调度和处理者，保证集群事务处理的顺序性；

集群内部各个服务器的调度者。

对于create，setData，delete等有写操作的请求，则需要统一转发给leader处理，leader需要决定编号、执行操作，这个过程称为一个事务。

Follower:

处理客户端非事务（读操作）请求，转发事务请求给Leader；

参与集群Leader选举投票。

此外，针对访问量比较大的zookeeper集群，还可新增观察者角色。

Observer:

观察者角色，观察Zookeeper集群的最新状态变化并将这些状态同步过来，其对于非事务请求可以进行独立处理，对于事务请求，则会转发给Leader服务器进行处理。

不会参与任何形式的投票只提供非事务服务，通常用于在不影响集群事务处理能力的前提下提升集群的非事务处理能力。

1. 1. ZooKeeper集群搭建

Zookeeper集群搭建指的是ZooKeeper分布式模式安装。通常由2n+1台servers组成。这是因为为了保证Leader选举（基于Paxos算法的实现）能过得到多数的支持，所以ZooKeeper集群的数量一般为奇数。

Zookeeper运行需要java环境，所以需要提前安装jdk。对于安装leader+follower模式的集群，大致过程如下：

配置主机名称到IP地址映射配置
修改ZooKeeper配置文件
远程复制分发安装文件
设置myid
启动ZooKeeper集群

如果要想使用Observer模式，可在对应节点的配置文件添加如下配置：

peerType=observer

其次，必须在配置文件指定哪些节点被指定为Observer，如：

server.1:node1:2181:3181:observer

第一步：下载

下载网址Index of /dist/zookeeper

我们在这个网址下载我们使用的zk版本为apache-zookeeper-3.5.7-bin.tar.gz，下载完成之后，上传到我们的linux的/export/software路径下

第二步：解压

解压zookeeper的压缩包到/export/servers路径下去，然后准备进行安装

cd /export/software

tar -zxvf apache-zookeeper-3.5.7-bin.tar.gz -C ../servers/

第三步：修改配置文件

第一台机器修改配置文件

cd /export/servers/apache-zookeeper-3.5.7-bin/conf/

cp zoo_sample.cfg zoo.cfg

mkdir -p /export/servers/apache-zookeeper-3.5.7-bin/zkdata/

vim zoo.cfg

dataDir=/export/servers/apache-zookeeper-3.5.7-bin/zkdata

autopurge.snapRetainCount=3

autopurge.purgeInterval=1

server.1=hadoop01:2888:3888

server.2=hadoop02:2888:3888

server.3=hadoop03:2888:3888

客户端在与 zookeeper 交互过程中会产生非常多的日志，而且 zookeeper 也会将内存中的数据作为 snapshot 保存下来，这些数据是不会被自动删除的，这样磁盘中这样的数据就会越来越多。不过可以通过这两个参数来设置，让 zookeeper 自动删除数据。

autopurge.purgeInterval 这个参数指定了清理频率，单位是小时，需要填写一个1或更大的整数，默认是0，表示不开启自己清理功能。

autopurge.snapRetainCount这个参数和上面的参数搭配使用，这个参数指定了需要保留的文件数目。默认是保留3个。

server.A= B:C:D ：服务器名称与地址（服务器编号，服务器地址，LF 通信端口，选举端口），这个配置项的书写格式比较特殊。

A 是一个数字，表示这个是第几号服务器；

B 是这个服务器的 ip 地址；

C 表示的是这个服务器与集群中的 Leader 服务器交换信息的端口(心跳端口)；

D 选举端口表示的是万一集群中的 Leader 服务器挂了，需要一个端口来重新进行选举，选出一个新的 Leader，而这个端口就是用来执行选举时服务器相互通信的端口(选举端口)。如果是伪集群的配置方式，由于 B 都是一样，所以不同的 Zookeeper 实例通信端口号不能一样，所以要给它们分配不同的端口号。

配置参数

1）tickTime =2000：通信心跳数，Zookeeper服务器与客户端心跳时间，单位毫秒

Zookeeper使用的基本时间，服务器之间或客户端与服务器之间维持心跳的时间间隔，也就是每个tickTime时间就会发送一个心跳，时间单位为毫秒。

它用于心跳机制，并且设置最小的session超时时间为两倍心跳时间。(session的最小超时时间是2*tickTime)

2）initLimit =10：LF初始通信时限

集群中的Follower跟随者服务器与Leader领导者服务器之间初始连接时能容忍的最多心跳数（tickTime的数量），用它来限定集群中的Zookeeper服务器连接到Leader的时限。

此配置表示，允许 follower （相对于 leader 而言的“客户端”）连接并同步到 leader 的初始化连接时间，它以 tickTime 的倍数来表示。当超过设置倍数的 tickTime 时间，则连接失败。

3）syncLimit =5：LF同步通信时限

集群中Leader与Follower之间的最大响应时间单位，假如响应超过syncLimit * tickTime，Leader认为Follwer死掉，从服务器列表中删除Follwer。

4）dataDir：数据文件目录+数据持久化路径

主要用于保存Zookeeper中的数据。

5）clientPort =2181：客户端连接端口

监听客户端连接的端口。

第四步：添加myid配置

在第一台机器的

/export/servers/apache-zookeeper-3.5.7-bin/zkdata这个路径下创建一个文件，文件名为myid ,文件内容为1

echo 1 > /export/servers/apache-zookeeper-3.5.7-bin/zkdata/myid

第五步：建立软连接

ln -s /export/servers/apache-zookeeper-3.5.7-bin /export/servers/zookeeper

第六步：配置环境变量

vim /etc/profile.d/my_env.sh

添加以下内容

#ZOOKEEPER_HOME

export ZOOKEEPER_HOME=/export/servers/zookeeper

export PATH=$PATH:$ZOOKEEPER_HOME/bin

source /etc/profile

第七步：安装包分发并修改myid的值

安装包分发到其他机器

第一台机器上面执行以下两个命令

scp -r /export/servers/apache-zookeeper-3.5.7-bin/ hadoop02:/export/servers/

scp -r /export/servers/apache-zookeeper-3.5.7-bin/ hadoop03:/export/servers/

第二台机器上修改myid的值为2

echo 2 > /export/servers/apache-zookeeper-3.5.7-bin/zkdata/myid

第三台机器上修改myid的值为3

echo 3 > /export/servers/apache-zookeeper-3.5.7-bin/zkdata/myid

分别在第二、三台上创建软连接

ln -s /export/servers/apache-zookeeper-3.5.7-bin /export/servers/zookeeper

分发一下环境变量文件到hadoop02,hadoop03上

scp -r /etc/profile.d/my_env.sh hadoop02:/etc/profile.d

scp -r /etc/profile.d/my_env.sh hadoop03:/etc/profile.d

分别在第二、三台上

source /etc/profile

第八步：三台机器启动zookeeper服务

这个命令三台机器都要执行

/export/servers/apache-zookeeper-3.5.7-bin/bin/zkServer.sh start

查看启动状态

/export/servers/apache-zookeeper-3.5.7-bin/bin/zkServer.sh status

1. ZooKeeper shell
  1. 客户端连接

运行 zkCli.sh –server ip 进入命令行工具。

输入help，输出zk shell提示：

1. 1. shell基本操作

创建节点

create [-s] [-e] path data acl

其中，-s或-e分别指定节点特性，顺序或临时节点，若不指定，则表示持久节点；acl用来进行权限控制。

创建顺序节点：

创建临时节点：

创建永久节点：

读取节点

与读取相关的命令有ls 命令和get 命令，ls命令可以列出Zookeeper指定节点下的所有子节点，只能查看指定节点下的第一级的所有子节点；get命令可以获取Zookeeper指定节点的数据内容和属性信息。

ls path [watch]

get path [watch]

Ls -s path [watch]

更新节点

set path data [version]

data就是要更新的新内容，version表示数据版本。

现在dataVersion已经变为1了，表示进行了更新。

删除节点

delete path [version]

若删除节点存在子节点，那么无法删除该节点，必须先删除子节点，再删除父节点。

deleteall path 可以递归删除节点。

其他命令

history : 列出命令历史

该命令可以重新执行指定命令编号的历史命令,命令编号可以通过history查看

1. ZooKeeper数据模型

ZooKeeper的数据模型，在结构上和标准文件系统的非常相似，拥有一个层次的命名空间，都是采用树形层次结构，ZooKeeper树中的每个节点被称为—Znode。和文件系统的目录树一样，ZooKeeper树中的每个节点可以拥有子节点。但也有不同之处：

Znode兼具文件和目录两种特点。既像文件一样维护着数据、元信息、ACL、时间戳等数据结构，又像目录一样可以作为路径标识的一部分，并可以具有子Znode。用户对Znode具有增、删、改、查等操作（权限允许的情况下）。
Znode具有原子性操作，读操作将获取与节点相关的所有数据，写操作也将替换掉节点的所有数据。另外，每一个节点都拥有自己的ACL(访问控制列表)，这个列表规定了用户的权限，即限定了特定用户对目标节点可以执行的操作。
Znode存储数据大小有限制。ZooKeeper虽然可以关联一些数据，但并没有被设计为常规的数据库或者大数据存储，相反的是，它用来管理调度数据，比如分布式应用中的配置文件信息、状态信息、汇集位置等等。这些数据的共同特性就是它们都是很小的数据，通常以KB为大小单位。ZooKeeper的服务器和客户端都被设计为严格检查并限制每个Znode的数据大小至多1M，当时常规使用中应该远小于此值。
Znode通过路径引用，如同Unix中的文件路径。路径必须是绝对的，因此他们必须由斜杠字符来开头。除此以外，他们必须是唯一的，也就是说每一个路径只有一个表示，因此这些路径不能改变。在ZooKeeper中，路径由Unicode字符串组成，并且有一些限制。字符串"/zookeeper"用以保存管理信息，比如关键配额信息。
1. 1. 数据结构图

图中的每个节点称为一个Znode。每个Znode由3部分组成:

① stat：此为状态信息, 描述该Znode的版本, 权限等信息

② data：与该Znode关联的数据

③ children：该Znode下的子节点

1. 1. 节点类型

Znode有两种，分别为临时节点和永久节点。

节点的类型在创建时即被确定，并且不能改变。

临时节点：该节点的生命周期依赖于创建它们的会话。一旦会话结束，临时节点将被自动删除，当然可以也可以手动删除。临时节点不允许拥有子节点。

永久节点：该节点的生命周期不依赖于会话，并且只有在客户端显示执行删除操作的时候，他们才能被删除。

Znode还有一个序列化的特性，如果创建的时候指定的话，该Znode的名字后面会自动追加一个不断增加的序列号。序列号对于此节点的父节点来说是唯一的，这样便会记录每个子节点创建的先后顺序。它的格式为“%10d”(10位数字，没有数值的数位用0补充，例如“0000000001”)。

这样便会存在四种类型的Znode节点，分别对应：

PERSISTENT：永久节点

EPHEMERAL：临时节点

PERSISTENT_SEQUENTIAL：永久节点、序列化

EPHEMERAL_SEQUENTIAL：临时节点、序列化

1. 1. 节点属性

每个znode都包含了一系列的属性，通过命令get，可以获得节点的属性。

dataVersion：数据版本号，每次对节点进行set操作，dataVersion的值都会增加1（即使设置的是相同的数据），可有效避免了数据更新时出现的先后顺序问题。

cversion ：子节点的版本号。当znode的子节点有变化时，cversion 的值就会增加1。

cZxid ：Znode创建的事务id。

mZxid ：Znode被修改的事务id，即每次对znode的修改都会更新mZxid。

对于zk来说，每次的变化都会产生一个唯一的事务id，zxid（ZooKeeper Transaction Id）。通过zxid，可以确定更新操作的先后顺序。例如，如果zxid1小于zxid2，说明zxid1操作先于zxid2发生，zxid对于整个zk都是唯一的，即使操作的是不同的znode。

ctime：节点创建时的时间戳.

mtime：节点最新一次更新发生时的时间戳.

ephemeralOwner:如果该节点为临时节点, ephemeralOwner值表示与该节点绑定的session id. 如果不是, ephemeralOwner值为0.

在client和server通信之前,首先需要建立连接,该连接称为session。连接建立后,如果发生连接超时、授权失败,或者显式关闭连接,连接便处于CLOSED状态, 此时session结束。

1. ZooKeeper Watcher（监听机制）

ZooKeeper提供了分布式数据发布/订阅功能，一个典型的发布/订阅模型系统定义了一种一对多的订阅关系，能让多个订阅者同时监听某一个主题对象，当这个主题对象自身状态变化时，会通知所有订阅者，使他们能够做出相应的处理。

ZooKeeper中，引入了Watcher机制来实现这种分布式的通知功能。ZooKeeper允许客户端向服务端注册一个Watcher监听，当服务端的一些事件触发了这个Watcher，那么就会向指定客户端发送一个事件通知来实现分布式的通知功能。

触发事件种类很多，如：节点创建，节点删除，节点改变，子节点改变等。

总的来说可以概括Watcher为以下三个过程：客户端向服务端注册Watcher、服务端事件发生触发Watcher、客户端回调Watcher得到触发事件情况

1. 1. Watch机制特点

一次性触发

事件发生触发监听，一个watcher event就会被发送到设置监听的客户端，这种效果是一次性的，后续再次发生同样的事件，不会再次触发。

事件封装

ZooKeeper使用WatchedEvent对象来封装服务端事件并传递。

WatchedEvent包含了每一个事件的三个基本属性：

通知状态（keeperState），事件类型（EventType）和节点路径（path）

event异步发送

watcher的通知事件从服务端发送到客户端是异步的。

先注册再触发

Zookeeper中的watch机制，必须客户端先去服务端注册监听，这样事件发送才会触发监听，通知给客户端。

1. 1. 通知状态和事件类型

同一个事件类型在不同的通知状态中代表的含义有所不同，下表列举了常见的通知状态和事件类型。

其中连接状态事件(type=None, path=null)不需要客户端注册，客户端只要有需要直接处理就行了。

1. 1. 监听器原理

1. 1. Shell 客户端设置watcher

设置节点数据变动监听：

通过另一个客户端更改节点数据：

此时设置监听的节点收到通知：

1. Zookeeper的Api应用

Zookeeper 是在 Java 中客户端主类，负责建立与 zookeeper 集群的会话，并提供方法进行操作。org.apache.zookeeper.Watcher

Watcher 接口表示一个标准的事件处理器，其定义了事件通知相关的逻辑，

包含 KeeperState 和 EventType 两个枚举类，分别代表了通知状态和事件类型，

同时定义了事件的回调方法：process（WatchedEvent event）。

process 方法是 Watcher 接口中的一个回调方法，当 ZooKeeper 向客户端发送一个 Watcher 事件通知时，客户端就会对相应的 process 方法进行回调，从而实现对事件的处理。

1. 1. 创建Maven工程，导入依赖包
创建一个Maven工程

2）添加pom文件

<groupId>org.apache.zookeeper</groupId>

<artifactId>zookeeper</artifactId>

</dependency>

</dependency>

</dependency>

<groupId>junit</groupId>

<artifactId>junit</artifactId>

</dependency>

</dependencies>

3）拷贝log4j.properties文件到项目根目录

需要在项目的src/main/resources目录下，新建一个文件，命名为“log4j.properties”，在文件中填入。

log4j.rootLogger=INFO, stdout

log4j.appender.stdout=org.apache.log4j.ConsoleAppender

log4j.appender.stdout.layout=org.apache.log4j.PatternLayout

log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n

log4j.appender.logfile=org.apache.log4j.FileAppender

log4j.appender.logfile.File=target/spring.log

log4j.appender.logfile.layout=org.apache.log4j.PatternLayout

log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%n

1. 1. 创建ZooKeeper客户端

创建包com.czxy.zk，在包下创建zkClinet类

5.2.1初始化客户端连接

private String connectString="hadoop01:2181,hadoop02:2181,hadoop03:2181";

private int sessionTimeout=2000;

private ZooKeeper zkClient;

@Test

public void init() throws IOException {

zkClient = new ZooKeeper(connectString, sessionTimeout, new Watcher() {

public void process(WatchedEvent event) {

}

});

}

5.2.2创建子节点

@Test

//注意init方法要改为@Before

public void create() throws KeeperException, InterruptedException {

// 参数1：要创建的节点的路径；参数2：节点数据；参数3：节点权限；参数4：节点的类型

String nodeCreate = zkClient.create("/czxy", "bigdata".getBytes(), ZooDefs.Ids.OPEN_ACL_UNSAFE, CreateMode.PERSISTENT);

}

5.2.3获取子节点并监听节点变化

修改代码init方法，注册监听，创建getChildren方法并设置监听

@Before

public void init() throws IOException {

zkClient = new ZooKeeper(connectString, sessionTimeout, new Watcher() {

public void process(WatchedEvent event) {

System.out.println("=========================");

List<String> children = null;

try {

children = zkClient.getChildren("/", true);

for (String child : children) {

System.out.println(child);

}

System.out.println("=========================");

} catch (KeeperException e) {

e.printStackTrace();

} catch (InterruptedException e) {

e.printStackTrace();

}

});

}

// 获取子节点

@Test

public void getChildren() throws Exception {

List<String> children = zkClient.getChildren("/", true);

for (String child : children) {

System.out.println(child);

}

// 延时阻塞

Thread.sleep(Long.MAX_VALUE);

}

5.2.4判断Znode是否存在

@Test

public void exist() throws Exception {

Stat stat = zkClient.exists("/czxy", false);

System.out.println(stat == null ? "not exist" : "exist");

}

1. ZooKeeper选举机制

Zookeeper默认的算法是FastLeaderElection，采用投票数大于半数则胜出的逻辑。

1. 1. 相关概念

服务器ID

比如有三台服务器，编号分别是1,2,3。

编号越大在选择算法中的权重越大。

选举状态

LOOKING，竞选状态。

FOLLOWING，随从状态，同步leader状态，参与投票。

OBSERVING，观察状态, 同步leader状态，不参与投票。

LEADING，领导者状态。

数据ID

服务器中存放的最新数据version。

值越大说明数据越新，在选举算法中数据越新权重越大。

逻辑时钟

也叫投票的次数，同一轮投票过程中的逻辑时钟值是相同的。每投完一次票这个数据就会增加，然后与接收到的其它服务器返回的投票信息中的数值相比，根据不同的值做出不同的判断。

1. 1. 全新集群选举

假设目前有5台服务器，每台服务器均没有数据，它们的编号分别是1,2,3,4,5,按编号依次启动，它们的选择举过程如下：

服务器1启动，给自己投票，然后发投票信息，由于其它机器还没有启动所以它收不到反馈信息，服务器1的状态一直属于LOOKING。
服务器2启动，给自己投票，同时与之前启动的服务器1交换结果，由于服务器2的编号大所以服务器2胜出，但此时投票数没有大于半数，所以两个服务器的状态依然是LOOKING。
服务器3启动，给自己投票，同时与之前启动的服务器1,2交换信息，由于服务器3的编号最大所以服务器3胜出，此时投票数正好大于半数，所以服务器3成为领导者，服务器1,2成为小弟。
服务器4启动，给自己投票，同时与之前启动的服务器1,2,3交换信息，尽管服务器4的编号大，但之前服务器3已经胜出，所以服务器4只能成为小弟。
服务器5启动，后面的逻辑同服务器4成为小弟。
1. 1. 非全新集群选举

对于运行正常的zookeeper集群，中途有机器down掉，需要重新选举时，选举过程就需要加入数据ID、服务器ID和逻辑时钟。

数据ID：数据新的version就大，数据每次更新都会更新version。

服务器ID：就是我们配置的myid中的值，每个机器一个。

逻辑时钟：这个值从0开始递增,每次选举对应一个值。如果在同一次选举中,这个值是一致的。

这样选举的标准就变成：

1、逻辑时钟小的选举结果被忽略，重新投票；

2、统一逻辑时钟后，数据id大的胜出；

3、数据id相同的情况下，服务器id大的胜出；

根据这个规则选出leader。

posted @ 2022-11-09 08:11 陶然同学阅读(91) 评论(0) 收藏举报

刷新页面返回顶部

【大数据】ZooKeeper

公告