hbase的架构和基础命令

理解HBase

HBase概述

Hbase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，用于存储海量的结构化或半结构化，非结构化的数据（底层是字节数组做存储的）
HBase处理数据

虽然Hadoop是一个高容错、高延时的分布式文件系统和高并发的批处理系统，但是它不适用于提供实时计算；

HBase是可以提供实时计算的分布式数据库，数据被保存在HDFS分布式文件系统上，由HDFS保证期高容错性;
HBase与HDFS

HDFS
- HDFS适于存储大容量文件的分布式文件系统。
- HDFS不支持快速单独记录查找。
- HDFS提供了高延迟批量处理;没有批处理概念。
- HDFS提供的数据只能顺序访问。
HBase
- HBase是建立在HDFS之上的数据库。
- HBase提供在较大的表快速查找。
- HBase提供了数十亿条记录低延迟访问单个行记录（随机存取）。
- HBase内部使用哈希表和提供随机接入，并且其存储索引，可将在HDFS文件中的数据进行快速查找
HBase数据模型
- 表：HBase的数据同样是用表来组织的，表由行和列组成，列分为若干个列族，行和列的坐标交叉决定了一个单元格。
- 行：每个表由若干行组成，每个行有一个行键作为这一行的唯一标识。
- 列族：一个HBase表被分组成许多“列族”的集合，它是基本的访问控制单元。
- 列修饰符：列族里的数据通过列限定符（或列）来定位
- 单元格：在HBase表中，通过行、列族和列限定符确定一个“单元格”（cell），单元格中存储的数据没有数据类型，总被视为字节数组byte[]
- 时间戳：每个单元格都保存着同一份数据的多个版本，这些版本采用时间戳进行索引
HBase数据坐标

HBase中需要根据行键、列族、列限定符和时间戳来确定一个单元格（cell），cell中的数据是没有类型的，全部是字节码形式存储。因此，可以视为一个“思维坐标”，即[行键，列族，列限定符，时间戳]。
HBase区域

HBase自动把表水平划分为区域（Region），每个区域都是有若干连续行构成的，一个区域由所属的表、起始行、终止行（不包括这行）三个要素来表示。

一开始，一个表只有一个区域，但是随着数据的增加，区域逐渐变大，等到它超出设定的阈值（128M）大小，就会在某行的边界上进行拆分，分成两个大小基本相同的区域。然后随着数据的再增加，区域就不断的增加，如果超出了单台服务器的容量，就可以把一些区域放到其他节点上去，构成一个集群。也就是说：集群中的每个节点（Region Server）管理整个表的若干个区域。所以，我们说：区域是HBase集群上分布数据的最小单位。

组件介绍

HBase由三种类型的服务器以主从模式构成：
- Region Server：负责数据的读写服务，用户通过与Region server交互来实现对数据的访问。
- HBase HMaster：负责Region的分配及数据库的创建和删除等操作。
- ZooKeeper：负责维护集群的状态（某台服务器是否在线，服务器之间数据的同步操作及master的选举等）。
```
HDFS的DataNode负责存储所有Region Server所管理的数据，即HBase中的所有数据都是以HDFS文件的形式存储的。出于使Region server所管理的数据更加本地化的考虑，Region server是根据DataNode分布的。HBase的数据在写入的时候都存储在本地。但当某一个region被移除或被重新分配的时候，就可能产生数据不在本地的情况。这种情况只有在所谓的compaction之后才能解决。
```
- Client：包含访问HBase的接口并维护cache来加快对HBase的访问
- Zookeeper：
  
  保证任何时候，集群中只有一个master
  
  存贮所有Region的寻址入口。
  
  实时监控Region server的上线和下线信息。并实时通知Master
  
  存储HBase的schema和table元数据的meta信息
- Master:
  
  为Region server分配region
  
  负责Region server的负载均衡
  
  发现失效的Region server并重新分配其上的region
  
  管理用户对table的增删改操作
- RegionServer:
  
  Region server维护region，处理对这些region的IO请求
  
  Region server负责切分在运行过程中变得过大的region
- HLog(WAL log)：
  
  HLog文件就是一个普通的Hadoop Sequence File，Sequence File 的Key是 HLogKey对象，HLogKey中记录了写入数据的归属信息，除了table和 region名字外，同时还包括sequence number和timestamp，timestamp是” 写入时间”，sequence number的起始值为0，或者是最近一次存入文件系统sequence number。
  
  HLog SequeceFile的Value是HBase的KeyValue对象，即对应HFile中的 KeyValue
- Region
  
  HBase自动把表水平划分成多个区域(region)，每个region会保存一个表里面某段连续的数据；每个表一开始只有一个region，随着数据不断插入表，region不断增大，当增大到一个阀值的时候，region就会等分会两个新的region（裂变）；
  
  当table中的行不断增多，就会有越来越多的region。这样一张完整的表被保存在多个Regionserver上。

HBase shell

help命令

可以通过 help '命名名称'来查看命令行的具体使用，包括命令的作用和用法。
general 类
1. 显示集群状态status
2. 查询数据库版本version
3. 显示当前用户与组 whoami
4. 查看操作表的命令table_help
5. 退出HBase Shell exit

DDL相关

创建表create

注意：创建表时只需要指定列族名称，不需要指定列名

# 语法
create '表名', {NAME => '列族名1'}, {NAME => '列族名2'}, {NAME => '列族名3'}
# 此种方式是上面的简写方式，使用上面方式可以为列族指定更多的属性，如VERSIONS、TTL、BLOCKCACHE、CONFIGURATION等属性
create '表名', '列族名1', '列族名2', '列族名3'

create '表名', {NAME => '列族名1', VERSIONS => 版本号, TTL => 过期时间, BLOCKCACHE => true}

# 示例
create 'tbl_user', 'info', 'detail'
create 't1', {NAME => 'f1', VERSIONS => 1, TTL => 2592000, BLOCKCACHE => true}，{NAME => 'f2',..}

修改(添加、删除)表结构Schema alter

添加一个列族

# 语法 
alter '表名', '列族名'

# 示例
alter 'tbl_user', 'address'

删除一个列簇

# 语法 
alter '表名', {NAME=> '列族名', METHOD=> 'delete'}

alter 't1',{NAME => 'cf2', METHOD => 'delete'}
# 示例
alter 'tbl_user', {NAME=> 'address', METHOD=> 'delete'}

修改列族的属性

# 修改f1列族的版本为5
alter 't1', NAME => 'f1', VERSIONS => 5

# 修改多个列族，修改f2为内存，版本号为5
alter 't1', 'f1', {NAME => 'f2', IN_MEMORY => true}, {NAME => 'f3', VERSIONS => 5}

# 也可以修改table-scope属性，例如MAX_FILESIZE, READONLY,MEMSTORE_FLUSHSIZE, DEFERRED_LOG_FLUSH等。
# 例如，修改region的最大大小为128MB：
alter 't1', MAX_FILESIZE => '134217728'

获取表的描述describe

# 语法 
describe '表名'

# 示例
describe 'tbl_user'

列举所有表list
```
list
```

表是否存在exists

# 语法 
exists '表名'

# 示例
exists 'tbl_user'

启用表enable和禁用表disable

# 语法
enable '表名'
is_enabled '表名'

disable '表名'
is_disabled '表名'

# 示例
disable 'tbl_user'
is_disabled 'tbl_user'

enable 'tbl_user'
is_enabled 'tbl_user'

删除表drop

# 语法
disable '表名'
drop '表名'

# 示例
disable 'tbl_user'
drop 'tbl_user'

获取rowKey所在的区 locate_region
```
locate_region '表名', '行键'
```

DML

插入或者修改数据put

# 语法
# 当列族中只有一个列时'列族名:列名'使用'列族名'
put '表名', '行键', '列族名', '列值'
put '表名', '行键', '列族名:列名', '列值'

# 示例

# 创建表
create 'users', 'info', 'detail', 'address'

# 第一行数据
put 'users', 'rk1001', 'info:id', '1'
put 'users', 'rk1001', 'info:name', '张三'
put 'users', 'rk1001', 'info:age', '28'
put 'users', 'rk1001', 'detail:birthday', '1990-06-26'
put 'users', 'rk1001', 'detail:email', 'abc@163.com'
put 'users', 'rk1001', 'detail:create_time', '2019-03-04 14:26:10'
put 'users', 'rk1001', 'address', '上海市'

全表扫描scan

# 语法
scan '表名'

# 示例
scan 'users'   // 效果类似于sql语句中select * from users

-- 扫描整个列簇
# 语法
scan '表名', {COLUMN=>'列族名'}

# 示例
scan 'users', {COLUMN=>'info'}

--扫描整个列簇的某个列
# 语法
scan '表名', {COLUMN=>'列族名:列名'}

# 示例
scan 'users', {COLUMN=>'info:age'}

获取数据get

# 语法
get '表名', '行键'

# 示例
get 'users', 'xiaoming'

--根据某一行某列族的数据
# 语法
get '表名', '行键', '列族名'

# 示例
get 'users', 'xiaoming', 'info'

删除某个列族中的某个列delete

# 语法
delete '表名', '行键', '列族名:列名'

delete 'users','xiaoming','info:age'

create 'tbl_test', 'columnFamily1'

put 'tbl_test', 'rowKey1', 'columnFamily1:column1', 'value1'
put 'tbl_test', 'rowKey1', 'columnFamily1:column2', 'value2'

delete 'tbl_test', 'rowKey1', 'columnFamily1:column1'

删除某行数据deleteall
```
# 语法
deleteall '表名', '行键'
```
清空整个表的数据truncate
```
truncate '表名'
```

自增incr与计数器get_counter

# 语法
incr '表名', '行键', '列族:列名', 步长值
-- 注意：incr 可以对不存的行键操作，如果行键已经存在会报错，如果使用put修改了incr的值再使用incr也会报错
--ERROR: org.apache.hadoop.hbase.DoNotRetryIOException: Field is not a long, it's 2 bytes wide

#get_counter
create 'counters', 'daily', 'weekly', 'monthly'
incr 'counters', '20240415', 'daily:hits', 1
incr 'counters', '20110101', 'daily:hits', 1
get_counter 'counters', '20110101', 'daily:hits'

posted @ 2024-06-14 20:16 yu_lu 阅读(48) 评论(0) 收藏举报

刷新页面返回顶部

hbase的架构和基础命令

理解HBase

组件介绍

HBase shell

公告