hbase框架原理

一、hbase简介

hbase是建立在hdfs上的面向列的分布式数据库。在需要实时读写、随机访问超大规模数据集时，可以使用HBase。

HBase的特点

二、hbase物理框架

上图是hbase的物理框架示意图。

Client

　　　　　- 包含访问HBase的接口并维护cache来加快对HBase的访问

Zookeeper

　　　　　- 保证任何时候，集群中只有一个master

　　　　　-存贮所有Region的寻址入口

　　　　　-实时监控Region server的上线和下线信息。并实时通知Master

　　　　　-存储HBase的schema和table元数据

Master

　　　　　-为Region server分配region

　　　　　-负责Region server的负载均衡

　　　　　-发现失效的Region server并重新分配其上的region

　　　　　-管理用户对table的增删改操作

RegionServer

　　　　　-Region server维护region，处理对这些region的IO请求

　　　　　-Region server负责切分在运行过程中变得过大的region　

HLog(WAL log)：

　　　　　– HLog文件就是一个普通的Hadoop Sequence File，Sequence File 的Key是 HLogKey对象，HLogKey中记录了写入数据的归属信息，

　　　　　　除了table和 region名字外，同时还包括sequence number和timestamp，timestamp是” 写入时间”，sequence number的起始值为0，

　　　　　　　或者是最近一次存入文件系统中sequence number。

　　　　　– HLog SequeceFile的Value是HBase的KeyValue对象，即对应HFile中的 KeyValue

Region

　　　　　– HBase自动把表水平划分成多个区域(region)，每个region会保存一个表里面某段连续的数据；每个表一开始只有一个region，随着数据不断插入表，

　　　　　　　region不断增大，当增大到一个阀值的时候，region就会等分会两个新的region（裂变）；

　　　　　– 当table中的行不断增多，就会有越来越多的region。这样一张完整的表被保存在多个Regionserver上。

Memstore 与 storefile

　　　　　– 一个region由多个store组成，一个store对应一个CF（列族）

　　　　　– store包括位于内存中的memstore和位于磁盘的storefile写操作先写入 memstore，当memstore中的数据达到某个阈值，

　　　　　　　hregionserver会启动 flashcache进程写入storefile，每次写入形成单独的一个storefile

　　　　　– 当storefile文件的数量增长到一定阈值后，系统会进行合并（minor、 major compaction），在合并过程中会进行版本合并和删除工作（majar），

　　　　　　　形成更大的storefile。

　　　　　– 当一个region所有storefile的大小和超过一定阈值后，会把当前的region 分割为两个，并由hmaster分配到相应的regionserver服务器，实现负载均衡。

　　　　　– 客户端检索数据，先在memstore找，找不到再找storefile

　　　　　– HRegion是HBase中分布式存储和负载均衡的最小单元。最小单元就表示不同的HRegion可以分布在不同的HRegion server上。

　　　　　– HRegion由一个或者多个Store组成，每个store保存一个columns family。

　　　　　– 每个Strore又由一个memStore和0至多个StoreFile组成。

三、hbase逻辑模型

对其逻辑模型的理解，可以直接理解成键值对数据库，只是在键的层面形成多个抽象层级，形成表、行键、列族、列等概念。当然，其实这样的层级也对着其实际物理存储关系，列族层面的数据文件都是存储在一起的。

posted @ 2018-05-16 15:29 hugh_tan 阅读(204) 评论(0) 编辑收藏举报

刷新页面返回顶部