大数据篇：Hbase

Hbase是什么

Hbase是一个分布式、可扩展、支持海量数据存储的NoSQL数据库，物理结构存储结构（K-V）。

如果没有Hbase

如何在大数据场景中，做到上亿数据秒级返回。(有条件：单条数据，范围数据)

hbase.apache.org

1 Hbase结构及数据类型

逻辑结构

物理结构

整张表会按照水平方向按照Row Key切割(Region)。再按垂直方向按ColumnFamily切割(Store)，

Name Space：命名空间
- 类似于关系型数据库中的database概念，每个命名空间下可以放多个表，默认存在2个命名空间：hbase和default，hbase存放Hbase内置的表，default表是用户默认使用的命名空间。（例如给order表赋予命名空间test，可以写为test:order）
Row：行
- Hbase中每行数据都由一个RowKey和多个列组成。
Column：列
- Hbase中的每个列都由ColumnFamily（列族）和ColumnQualifier（列限定符）进行限定，（例如：personal_info:name，personal_info:city）
Cell：单元
- 由{RowKey，ColumnFamily，ColumnQualifier，TimeStamp}唯一确定的单元，Cell中的数据是没有类型的，全部为字节码形式储存。
Row Key：行键
- Row Key在表中必须是唯一的而且必须存在的。
- Row Key是按照字典序一位一位比较有序排列的（有值比没有值大）。例如row_key11 排列在row_key1和row_ley2之间。
- 所有对表的访问都要通过Row Key 。（单个RowKey访问，或RowKey范围访问，或全表扫描)
ColumnFamily：列族
- 创建Hbase表时，只需要给定CF即可，在插入数据时，列（字段）可以动态、按需增加。
- 每个CF可以有一个或多个列成员(ColumnQualifier)。
- 不同列族放在hdfs不同文件夹中存储。
TimeStamp：时间戳
- 用于标识数据的不同版本，如果不指定时间戳，Hbase在写入数据时会自动加上当前系统时间戳为该字段值。

2 Hbase架构

下面从小到大解释上图中的各组件中的功能。

StoreFile
- StoreFile为HBase真正存储的文件，最终通过HDFS客户端存入DataNode。（也就是linux磁盘中）
Store
- 可以理解为一个切片Region中的一组列族。(如上图一个Region中有多个Store)
- Store中包含Mem Store(内存存储)，StoreFile(由内存刷入的数据，数量多了会合并，数据大了会切分)
Region
- Region可以理解为一张表的切片，Region按照数据量大小阀值和Row key进行切分。
- HBase自动把表水平（按行）划分成多个区域(region)，每个region会保存一个表里面某段连续的数据。
- 每个表一开始只有一个region，随着数据不断插入，region不断增大，当增大到一个阀值的时候，region就会根据Row key等分为两个新的region，以此类推。
- Table中的行不断增多，就会有越来越多的region，一张表数据就被保存在多个Region 上。
HLog
- Hbase的预写日志，防止特殊情况下的数据丢失。
RegionServer
- 数据的操作(DML)：get，put，delete
- 管理Region：SplitRegion（切分），CompactRegion（合并）
Master
- 表级别操作(DDL)：create，delete，alter
- 管理RegionServer：监控RegionServer状态，分配Regions到RegionServer，(如有机器rs1,rs2,rs3，数据写入rs1,rs2上的Region，r3空闲--->这时rs1被大量写入数据达到Region上限，rs1将Region等分后，就会通知Master将其中一份发往rs3管理。)

3 命令行操作

3.1 链接hbase

链接hbase

hbase shell

查看帮助命令或命令详细使用

help
help '命令'

3.2 命名空间操作

3.2.1 查询命名空间

list_namespace

3.2.2 查询命名空间下的表

list_namespace_tables '命名空间名'

3.2.3 创建命名空间

create_namespace '命名空间名'

3.2.4 删除命名空间(需要namespace是空的)

drop_namespace '命名空间名'

3.3 DDL操作

3.3.1 查询所有用户表

list

3.3.2 创建表

create '命名空间：表', '列族1', '列族2', '列族3','列族4'...

如图发现有一串乱乱序文件夹，这串乱序就代表了Region号

3.3.3 查看表详情

describe '命名空间：表'

可以看出VERSIONS为1，代表这个表只能存放一个版本的数据。

3.3.4 变更表信息

主要用于修改表的版本保存信息，也可以创建表的时候指定，但是shell命令复杂，故一般使用变更命令。

alter '命名空间：表',{NAME=>'列族名',VERSIONS=>3}

3.3.5 修改表状态（删除前必须失效表）

失效表

disable '表'

启用表

enable '表'

3.3.6 删除表

delete '表'

3.4 DML操作

3.4.1 插入数据

put '命名空间：表','RowKey','列族：列','值'
put '命名空间：表','RowKey','列族：列','值',时间戳(版本控制)

如图发现并没有数据文件生成，因为数据在内存中，需要flush '表'，而后就可以看见数据落地了。(flush一次就是生成一个StoreFile)

3.4.2 扫描表

#全表扫描
scan '命名空间：表'
#范围扫描(左闭右开)
scan '命名空间：表',{STARTROW => 'RowKey',STOPROW=>'RowKey'}
#扫描N个版本的数据
scan '命名空间：表',{RAW=>true,VERSIONS=>10}

3.4.3 Flush刷写

flush '命名空间：表'

数据版本保留机制

从上面知道flush一次就是生成一个StoreFile，那么数据就会根据建表保留版本个数来存储最近个数的数据。

比如：保留版本个数为2，那么如果插入v1,v2,v3三条数据，flush后，就只剩下v2,v3两条数据，这时再插入v4,v5,v6三条数据，flush后，剩下的为v2,v3,v5,v6四个版本的数据(此时是2个StoreFile文件)，如果发生Region合并或者分裂，那么StoreFile文件会被合并后在放入对应的Region中，这时数据就又会根据保留版本个数删除，v2,v3,v5,v6，就变成了v5,v6。(如果没有手动flush，或者到设置的自动flush时间，那么数据不会根据版本个数删除)(默认超过3个StoreFile文件则会进行大合并)

一个列族对应一个MemStore
每个MemStore在刷写到HDFS时，生成的StoreFile是独立的
RegionServer全局MemStore刷写时机：hbase.regionserver.global.memstore.size

单个Memstore刷写时机：hbase.hregion.memstore.flush.size

3.4.3 查询数据

get '命名空间：表','RowKey'
get '命名空间：表','RowKey','列族'
get '命名空间：表','RowKey','列族：列'
#获取N个版本的数据
get '命名空间：表','RowKey',{COLUMN=>'列族：列',VERSIONS=>10}

3.4.4 清空表

truncate '命名空间：表'

3.4.5 删除数据

#delete '命名空间：表','RowKey','列族'(此命令行删除有问题，但是API可以)
delete '命名空间：表','RowKey','列族：列'
deleteall  '命名空间：表','RowKey'

4 读写流程

4.1 写流程

客户端通过ZK查询元数据存储表的所在RegionServer所在位置并返回

查询元数据，返回需要表的RegionServer

客户端缓存信息，方便下次使用
发送PUT请求到RegionServer，写操作日志（WAL），再写入内存，然后同步wal到HDFS，则结束。(此步骤由事务回滚保证日志、内存都写入成功)

4.2 读流程

在读取数据时候，MemStore和StoreFile一起读取，将StoreFile中的数据放入BlockCache，然后在将内存数据和BlockCache比较时间戳做Merge，取最新的数据返回。

5 合并切分

合并Compaction

由于Memstore每次刷写都会生成一个新的HFile，且同一个字段的不同版本和不同类型有可能会分布在不同的HFile中，因此查询时需要遍历所有的HFile。为了减少HFile的个数，以及清理掉过期和删除的数据，会进行StoreFile合并。

Compaction分为Minor Compaction和Major Compaction。

Minor Compaction会将临近的若干个较小的HFile合并成一个较大的HFile，但不会清理过期和删除的数据。

Major Compaction会将一个Store下的所有HFile合并成一个大的HFile，并且会清理掉过期和删除的数据。

参数设置：

hbase.hregion.majorcompaction=0

hbase.hregion.majorcompaction.jitter=0

hbase.hstore.compactionThreshold=3

切分

默认情况下，每个Table起初只有一个Region，随着数据的不断写入，Region会自动进行拆分，刚拆分时，两个子Region都位于当前Region Server，但处于负载均衡的考虑，HMaster有可能会将某个Region转移给其他的Region Server。

参数设置：

hbase.hregion.max.filesize=5G （如下公式中为Max1）(可以减小该值，提高并发)

hbase.hregion.memstore.flush.size=258M （如下公式中为Max2）

每次切分将会比较Max1和Max2的值，取小的。[min(Max1,Max2 * Region个数 * 2)]，其中Region个数为当前Region Server中数据该Table的Region个数。

由于自动切分无法避免热点问题，所以在生产中我们常常使用预分区和设计RowKey避免出现热点问题

6 优化

6.1 尽量不要使用多个列族

为了避免flush时产生多个小文件。

6.2 内存优化

主要作用来缓存Table数据，但是flush时会GC，不要太大，根据集群资源，一般分配整个Hbase集群内存的70%，16->48G就可以了

6.3 允许在HDFS中追加内容

dfs.support.append=true (hdfs-site.xml、hbase-site.xml)

6.4 优化DataNode允许最大文件打开数

dfs.datanode.max.transfer.threads=4096 (HDFS配置)

在Region Server级别的合并操作中，Region Server不可用，可以根据集群资源调整该值，增加并发。

6.5 调高RPC监听数量

hbase.regionserver.handler.count=30

根据集群情况，可以适当增加该值，主要决定是客户端的请求数。

6.6 优化客户端缓存

hbase.client.write.buffer=100M （写缓存）

调高该值，可以减少RPC调用次数，单数会消耗更多内存，根据集群资源情况设定。

6.7 合并切分优化

参考5合并切分

6.8 预分区

创建表时候加入参数SPLITS

create '命名空间：表', '列族1', '列族2', '列族3','列族4'...,SPLITS=>['分区号','分区号','分区号','分区号']

根据数据量预估半年到一年的数据量，和Region最大值来选择预分区数。

6.9 RowKey

散列性：均匀分部到不同的Region里
唯一性：不会重复
长度：70-100位

方案一：随机数，hash值，但是这种不能范围查询，没有数据的集中性。

方案二：字符串反转，比如时间戳反转后就达到了散列性，但是在查看的时候集中性只是优于第一种。

生产方案推荐：

#设计预分区键（如比如200个区） | ASCLL码为124只有 } 和 ~ 比它大，那么不管以后的RowKey使用什么字符，都是小于这个字符的，所以可以有效的得到RowKey规律
000|
001|
......
199|

# 1 设计RowKey键_ASCLL码为95
000_
001_
......
199_
# 2 根据业务唯一标识（如用户ID，手机号，身份证）和时间维度（比如按月：202004）计算后根据分区数取余(13408657784^202004)%199=分区号
# 想以什么时间进行查询就把什么往前提，如下数据需要查1月数据范围就是 000_13408657784_2020-04  -> 000_13408657784_2020-04|
000_13408657784_2020-04-01 12:12:12
......
199_13408657784_2020-04-01 24:12:12

posted on 2020-04-12 16:14 咘雷扎克阅读(1351) 评论(0) 收藏举报

刷新页面返回顶部

大数据篇：Hbase

大数据篇：Hbase

1 Hbase结构及数据类型

2 Hbase架构

3 命令行操作

3.1 链接hbase

3.2 命名空间操作

3.2.1 查询命名空间

3.2.2 查询命名空间下的表

3.2.3 创建命名空间

3.2.4 删除命名空间(需要namespace是空的)

3.3 DDL操作

3.3.1 查询所有用户表

3.3.2 创建表

3.3.3 查看表详情

3.3.4 变更表信息

3.3.5 修改表状态（删除前必须失效表）

3.3.6 删除表

3.4 DML操作

3.4.1 插入数据

3.4.2 扫描表

3.4.3 Flush刷写

3.4.3 查询数据

3.4.4 清空表

3.4.5 删除数据

4 读写流程

4.1 写流程

4.2 读流程

5 合并切分

6 优化

6.1 尽量不要使用多个列族

6.2 内存优化

6.3 允许在HDFS中追加内容

6.4 优化DataNode允许最大文件打开数

6.5 调高RPC监听数量

6.6 优化客户端缓存

6.7 合并切分优化

6.8 预分区

6.9 RowKey

导航