分布式技术-Zookeeper概述
概述
- Zookeeper是一个开源的分布式的,为分布式应用提供协调服务的Apache项目
- 在大数据技术生态圈中,zookeeper(动物管理员),Hadoop(大象),Hive(蜜蜂),Pig(猪)
工作机制
- zookeeper从设计模式角度来理解:是一个基于观察者模式设计的分布式服务管理框架
- 负责存储和管理数据
- 接受观察者的注册
- 通知已经注册的观察者做出反应
- 实现集群中类似Master/Slave管理模式
- zookeeper = 文件系统 + 通知机制
- 服务上线
- 获取当前服务列表
- 服务器节点下线
- 服务器节点上下线事件通知
- 重新获取服务器列表,注册监听
特点
分布式和集群的区别:
无论分布式还是集群,都是很多人在做事情,具体区别如下
例子:有一个饭店,越来越火爆,招聘工作人员
- 分布式:招聘一个厨师,1个服务员,1个前台,3个人负责的工作不同,最终都是为饭店工作
- 集群:招聘5个服务员,5个人的工作一个
- 一个leader和多个follower来组成的集群
- 集群中只要有半数以上的节点存活,Zookeeper就能正常工作
- 全局数据唯一性,每台服务器都保存一份相同的数据副本,无论哪台client连接哪台server,数据都是一致的
- 数据更新原子性,一次数据要么成功,要么失败
- 实时性,在一定的时间范围内,client能读取到最新数据
- 更新的请求按照顺序执行,会按照发过来的数据,逐一执行
数据结构
- zookeeper数据模型的结构与linux文件系统很类似,整体上可以看作是一棵树,每个节点称作一个ZNode(ZookeeperNode)
- 每一个ZNode默认能够存储1MB的数据(元数据),每个ZNode的路径是唯一的
- 元数据(Metadata),又称中介数据,中继数据,为描述数据的数据,主要是描述数据属性信息,同来支持如指示存储位置,历史记录,资源查找,文件记录等功能
应用场景
- 提供的服务包括:统一命名服务、统一配置管理、统一集群管理、服务器节点动态上下线、软负载均衡等
统一命名服务
- 在分布式环境下,对环境进行统一命名
统一配置管理
- 分布式环境下进行配置同步
- 将配置管理交给zookeeper
- 将配置信息写到某个节点上
- 每个客户端都监听这个节点
- 一旦节点中的数据被修改,通知每台服务器
服务器节点动态上下线
- 客户端能够获取服务器节点的上下线情况
软负载均衡
- 统计每台服务器的访问情况,访问次数最少的节点去处理最新的请求(
雨露均沾)