HBase的学习

一、Hbase简介

1.1 定义

Apache HBase 是以 hdfs 为数据存储的,一种分布式、可扩展的 NoSQL 数据库。

1.2 HBase 数据模型

HBase 数据模型的关键在于稀疏、分布式、多维、排序的映射。其中映射 map 指代非关系型数据库的 key-Value 结构。

1.2.1 HBase 逻辑结构

HBase的逻辑结构有行(Row Key),列,列族,和 region,每个region存储一定范围内的行,列族包括一系列相关的列。

1.2.2 HBase 物理存储结构

物理存储结构即为数据映射关系,而在概念视图的空单元格,底层实际根本不存储。真正存储的 StoreFile 文件的物理存储结构不光是存储 RowKey,列名,列族以及值,还会存储该条数据的时间戳和操作类型。读取数据时通过判断时间戳和类型来判断该条数据是否存在还是已被删除。

1.2.3 数据模型

1. Name Space
命名空间,类似于关系型数据库的 database 概念,每个命名空间下有多个表。HBase 两个自带的命名空间,分别是 hbase 和 default,hbase 中存放的是 HBase 内置的表,default 表是用户默认使用的命名空间。
2. Table
类似于关系型数据库的表概念。不同的是,HBase 定义表时只需要声明列族即可,不需要声明具体的列。因为数据存储是稀疏的,所有往 HBase 写入数据时,字段可以动态、按需指定。因此,和关系型数据库相比,HBase 能够轻松应对字段变更的场景。
3. Row
HBase 表中的每行数据都由一个 RowKey 和多个 Column(列)组成,数据是按照 RowKey 的字典顺序存储的,并且查询数据时只能根据 RowKey 进行检索,所以 RowKey 的设计十分重要。
4. Colume
HBase 中的每个列都由 Column Family(列族)和 Column Qualifier(列限定符即列名)进行限定,例如 info:name,info:age。建表时,只需指明列族,而列限定符无需预先定义。
5. Time Stamp
用于标识数据的不同版本(version),每条数据写入时,系统会自动为其加上该字段,其值为写入 HBase 的时间。
6. Cell
由{rowkey, column Family:column Qualifier, timestamp, type} 唯一确定的单元。cell 中的数据全部是字节码形式存贮。

1.3 HBase 基本架构

1. Master
具体实现类为HMaster,通常部署在namenode上,负责监控集群中所有的 RegionServer 实例。
主要作用如下:
(1)负责通过ZK监控RegionServer进程状态,同时是所有元数据变化的接口。管理元数据表格 hbase:meta,接收用户对表格创建修改删除的命令并执行。
(2)监控 region 是否需要进行负载均衡,故障转移和 region 的拆分。

通过启动多个后台线程监控实现上述功能:
- LoadBalancer 负载均衡器
周期性监控 region 分布在 regionServer 上面是否均衡,由参数 hbase.balancer.period 控制周期时间,默认 5 分钟。
- CatalogJanitor 元数据管理器
定期检查和清理 hbase:meta 中的数据。meta 表内容在进阶中介绍。
- MasterProcWAL master 预写日志处理器
把 master 需要执行的任务记录到预写日志 WAL 中,如果 master 宕机,让 backupMaster 读取日志继续工作。
2. RegionServer
主要进程,具体实现类为HRegionServer,部署在datanode上。功能:主要负责数据cell的处理,例如写入数据 put,查询数据 get 等。同时在执行region区域的拆分和合并的时候,由RegionServer来实际执行。
3. Zookeeper
HBase 通过 Zookeeper 来做 master 的高可用、记录 RegionServer 的部署信息、并且存储有 meta 表的位置信息。 HBase 对于数据的读写操作可以直接访问 Zookeeper ,在 2.3 版本推出 Master Registry
模式,客户端可以直接访问 master。使用此功能,会加大对 master 的压力,减轻对 Zookeeper的压力。

4. HDFS
HDFS 为 Hbase 提供最终的底层数据存储服务,同时为 HBase 提供高容错的支持。

二、HBase入门

2.1 HBase集群部署

2.1.1 HBase安装

1. 安装。首先在Hadoop102虚拟机上输入命令:myhadoop.sh start启动Hadoop集群,然后输入命令:zk.sh start启动zookeeper集群,然后将 hbase-2.4.11-bin.tar.gz 安装包上传到虚拟机上,老样子还是那个目录咯,然后输入命令:tar -zxvf hbase-2.4.11-bin.tar.gz解压该安装包。
2. 配置环境变量。首先输入命令:vi /etc/profile.d/my_env.sh,添加如下内容,保存退出后
记得source以下使其生效,然后在其它虚拟机上也要加上这个配置然后source,但是不建议使用xsync命令分发到所有节点,因为每台虚拟机上安装的东西不一样配置也不一样晓得伐。

#HBASE_HOME
export HBASE_HOME=/opt/software/hbase-2.4.11
export PATH=$PATH:$HBASE_HOME/bin

3. 修改hbase配置文件。然后进入到Hadoop102虚拟机的hbase目录下修改配置文件。首先进入到conf目录下,输入命令:vi hbase-env.sh,将export HBASE_MANAGES_ZK=true这个属性注释放开并修改为false,意思是不使用hbase自带的zookeeper。然后输入命令:vi hbase-site.xml,将属性全部修改为如下内容:

<!-- hbase是否开启集群模式 --> 
<property> 
 <name>hbase.cluster.distributed</name> 
 <value>true</value> 
</property> 
<!-- 配置zookeeper的集群 --> 
<property> 
 <name>hbase.zookeeper.quorum</name> 
 <value>hadoop102,hadoop103,hadoop104</value> 
</property>
<!-- 配置hbase存储的目录 --> 
<property> 
 <name>hbase.rootdir</name> 
 <value>hdfs://hadoop102:8020/hbase</value> 
</property>

还是在当前目录下,修改 regionservers 文件,将其修改为如下内容并保存退出。(注意不要有空格)

hadoop102
hadoop103
hadoop104

4. 解决HBase和Hadoop的log4j兼容性冲突问题。修改HBase的jar包为备用jar包,使用Hadoop的jar包。进入到hbase的 lib/client-facing-thirdparty 目录下,输入命令:mv slf4j-reload4j-1.7.33.jar slf4j-reload4j-1.7.33.jar.bak
5. 以上全部配置完成后将 hbase 分发到Hadoop103和104上。

2.1.2 启动hbase服务

1. 单点启动

bin/hbase-daemon.sh start master
bin/hbase-daemon.sh start regionserver

2. 群启,也可以不在hbase目录下启动,在任何目录下输入命令start-hbase.sh都是可以的。(全局可用)

bin/start-hbase.sh

3. 启动成功后可以查看hbase的页面,网址:http://hadoop102:16010/

2.1.3 高可用模式

HBase 支持对 HMaster 的高可用配置。
1. 首先配置前要关闭hbase集群:stop-hbase.sh;
2. 下面在hbase的conf目录下,输入命令:vi backup-masters,内容为你要配置的高可用的Hmaster地址,这里我们添加内容为hadoop103;
3. 添加完成后将该配置文件进行分发;
4. 配置完成后重启hbase即可打开web页面查看是否配置成功。

posted @ 2023-08-18 15:34  KongLong_cm  阅读(19)  评论(0编辑  收藏  举报