Hbase shell学习

通过Shell工具可以对云数据库HBase进行数据管理，包括建表、插入数据、删除数据和删除表等操作，本文介绍Shell的基本使用命令。

访问配置

如果使用的是云数据库HBase标准版，基本环境的配置操作请参见使用HBase Shell访问HBase标准版。
如果使用的是云数据库HBase增强版，基本环境的配置操作请参见使用HBaseue Shell访问HBase增强版。

常用命令

Shell的使用命令更多请参见Apache HBase Shell介绍。

Shell数据定义语言

create: 用于创建一个表。
list: 用于列出HBase的所有表。
disable: 用于禁用表。
is_disabled: 用于验证表是否被禁用。
enable: 用于启用一个表。
is_enabled: 用于验证表是否已启用。
describe: 用于提供了一个表的描述。
alter: 用于改变一个表。
exists: 用于验证表是否存在。
drop: 用于从HBase中删除表。

Shell数据操作语言

put: 用于把指定列在指定的行中单元格的值在一个特定的表。
get: 用于取行或单元格的内容。
delete:用于删除表中的单元格值。
deleteall: 用于删除给定行的所有单元格。
scan: 用于扫描并返回表数据。
count: 用于计数并返回表中的行的数目。
truncate: 清空表中的数据，其内部实现是将指定的表下线、删除、重建，该操作会丢失Region分区
truncate_preserve：清空表中的数据，其内部实现是将指定的表下线、删除、重建，并且Region分区与旧表保留一致

进入和退出Shell环境

执行以下命令进入Shell环境。
```
bin/hbase shell
```
执行以下命令退出Shell环境。
```
quit
```
使用help命令查看基本命令和对应的使用方法。
```
help
```

基本操作

创建表
使用create命令来创建表格，在创建的时候必须输入表的名称和列族的名称。
```
//创建一个名称为test，列族名为cf的表
create 'test', 'cf'
```
查询所有表的信息
使用list命令来查询HBase数据库中所有表的信息，也可以使用正则表达式来过滤表。
```
list
list 'abc.*'
list 'test'
```
插入数据
使用put命令为新创建的表插入数据。执行以下语句插入三条数据。
```
put 'test', 'row1', 'cf:a', 'value1'
put 'test', 'row2', 'cf:b', 'value2'
put 'test', 'row3', 'cf:c', 'value3'
```
说明语句中test为表名，row1为表的Rowkey，cf:a表示自定义列，列族名和列名，value1为值。

查询指定表的数据

scan是一种访问HBase数据的方式，它非常的灵活，scan操作可以用它来扫描全表，也可以用它查询固定范围。查询速度会比查询单条（使用get）数据略慢一些，这里因为我们的demo数据库数据并不多，所以我们全部取出来。执行以下语句可以查询test表的数据。

scan 'test'

返回数据如下：

ROW                                      COLUMN+CELL
 row1                                    column=cf:a, timestamp=1421762485768, value=value1
 row2                                    column=cf:b, timestamp=1421762491785, value=value2
 row3                                    column=cf:c, timestamp=1421762496210, value=value3
3 row(s) in 0.0230 seconds

查询表的单条数据

使用get来查询表的单条数据。

get 'test', 'row1'

返回数据如下：

COLUMN                                   CELL
 cf:a                                    timestamp=1421762485768, value=value1
1 row(s) in 0.0350 seconds

禁用和启用指定表
如果您想要删除一张表，或者改变一张表的设置，或者其他类似的场景。您需要使用disable命令先禁用这张表，删除或者修改配置完成后，使用enable命令启用表，重新使用这张表。
```
disable 'test'
enable 'test'
```
删除指定表
如果您想要删除一张表，使用drop命令，这是一个危险的操作，请谨慎使用。
```
drop 'test'
```

常用配置

为指定表设置Major Compaction周期（无特殊情况下不建议自行设置）。
Major Compaction周期的单位为毫秒（ms），默认值是7天，设置为0表示关闭周期。
```
alter 'test', CONFIGURATION => {'hbase.hregion.majorcompaction' => 300000}
```
为指定表的列族设置数据压缩格式。
云数据库HBase的数据压缩详情介绍请参见数据压缩与编码。
```
alter 'test', NAME => 'cf', COMPRESSION => 'SNAPPY'
```
为指定表的列族设置Block Encoding类型。
将test表列族的Block Encoding类型设置为DATA_BLOCK_ENCODING。
```
alter 'test', NAME => 'cf', DATA_BLOCK_ENCODING => 'DIFF'
```
为指定表的列族设置数据存活时间（Time To Live，简称TTL）。
TTL单位为秒（s），例如2592000s=30天。
```
alter 'test', NAME => 'cf', TTL => 2592000
```
为指定表设置预分区。云数据库HBase的预分区详情介绍请参见设置预分区。

一个学生成绩表的例子来演示hbase的用法。

name	grade	course
name	grade	math	english
Tom	5	97	87
Jim	4	89	80

表的创建：语法：create '表名称','列簇名称1','列簇名称2'........

create 'student','name','grade','course'

desc 'student'

结果：

{
    NAME=>'course',
    DATA_BLOCK_ENCODING=>'NONE',
    BLOOMFILTER=>'ROW',
    REPLICATION_SCOPE=>'0',
    VERSIONS=>'1',
    COMPRESSION=>'NONE',
    MIN_VERSIONS=>'0',
    TTL=>'FOREVER',
    KEEP_DELETED_CELLS=>'FALSE',
    BLOCKSIZE=>'65536',
    IN_MEMORY=>'false',
    BLOCKCACHE=>'true'
}{
    NAME=>'grade',
    DATA_BLOCK_ENCODING=>'NONE',
    BLOOMFILTER=>'ROW',
    REPLICATION_SCOPE=>'0',
    VERSIONS=>'1',
    COMPRESSION=>'NONE',
    MIN_VERSIONS=>'0',
    TTL=>'FOREVER',
    KEEP_DELETED_CELLS=>'FALSE',
    BLOCKSIZE=>'65536',
    IN_MEMORY=>'false',
    BLOCKCACHE=>'true'
}{
    NAME=>'name',
    DATA_BLOCK_ENCODING=>'NONE',
    BLOOMFILTER=>'ROW',
    REPLICATION_SCOPE=>'0',
    VERSIONS=>'1',
    COMPRESSION=>'NONE',
    MIN_VERSIONS=>'0',
    TTL=>'FOREVER',
    KEEP_DELETED_CELLS=>'FALSE',
    BLOCKSIZE=>'65536',
    IN_MEMORY=>'false',
    BLOCKCACHE=>'true'
}

新增列簇：

alter '表名称',NAME='列簇名称'

hbase(main):068:0> alter 'student',NAME=>'age'
Updating all regions with the new schema...
1/1 regions updated.

删除列簇：

alter '表名称',NAME=>'列簇名称',METHOD=>'delete'

 alter 'student',NAME=>'test',METHOD=>'delete'

删除一个表：之前，必须先将该表disable掉。

disable 'student'

drop 'student'

给表添加记录：

put '表名称'，'rowkey','列簇名称:列名称','值'

put 'student','001201509011001','name','Tom'

结果：

hbase(main):085:0> scan 'student'
ROW                           COLUMN+CELL
 001201509011001              column=name:, timestamp=1447766388162, value=Tom
1 row(s) in 0.0090 seconds

继续执行：name列簇的value='jim'，但是rowkey 不变，

hbase(main):086:0> put 'student','001201509011001','name','Jim'

结果还是一条数据，001201509011001的rowkey，被第二条数据覆盖。

scan 'student'
ROW                           COLUMN+CELL
 001201509011001              column=name:, timestamp=1447766492893, value=Jim

put 'student','001201509011001','course:math','100'
put 'student','001201509011001','course:english','100'

hbase(main):096:0> scan 'student'
ROW                           COLUMN+CELL
 001201509011001              column=course:english, timestamp=1447766828720, value=100
 001201509011001              column=course:math, timestamp=1447766813289, value=100
 001201509011001              column=grade:, timestamp=1447766751652, value=2
 001201509011001              column=name:, timestamp=1447766492893, value=Jim
 001201509011002              column=name:, timestamp=1447766547713, value=Tom

加了很多rowKey进行测试：如下

base(main):127:0> scan 'student'
ROW                           COLUMN+CELL
 001201509011001              column=course:english, timestamp=1447766828720, value=100
 001201509011001              column=course:math, timestamp=1447766813289, value=100
 001201509011001              column=grade:, timestamp=1447766751652, value=2
 001201509011001              column=name:, timestamp=1447766492893, value=Jim
 001201509011002              column=course:english, timestamp=1447766987607, value=95
 001201509011002              column=course:math, timestamp=1447767003501, value=80
 001201509011002              column=grade:, timestamp=1447767073299, value=6
 001201509011002              column=name:, timestamp=1447766547713, value=Tom
 001201509011003              column=grade:, timestamp=1447767130750, value=5
 001201509011004              column=grade:, timestamp=1447767139371, value=3
 001201509011005              column=grade:, timestamp=1447767146338, value=3
 001201509011006              column=course:math, timestamp=1447767489278, value=30
 001201509011006              column=grade:, timestamp=1447767153088, value=2
 001201509011007              column=course:math, timestamp=1447767474245, value=87
 001201509011007              column=grade:, timestamp=1447767173296, value=2
 001201509011008              column=grade:, timestamp=1447767181639, value=3
 001201509011008              column=name:, timestamp=1447767278902, value=lucy
 001201509011009              column=grade:, timestamp=1447767190450, value=10
 001201509011009              column=name:, timestamp=1447767257259, value=Mike
 001201509011010              column=grade:, timestamp=1447767198644, value=11
 001201509011010              column=name:, timestamp=1447767236548, value=Peter

根据rowkey查看对应列的数据：

get '表名称'，'rowkey','列簇名称:列名称'

 get 'student','001201509011001','name'

COLUMN                        CELL
 name:                        timestamp=1447766492893, value=Jim

查看表中的记录数：根据列簇来统计：

hbase(main):133:0* count 'student'

结果：10

查询表中指定列的所有记录：

语法：scan '表名',{COLUMNS =>'列簇'}

hbase(main):134:0> scan 'student',{COLUMNS=>'name'}

ROW                           COLUMN+CELL
 001201509011001              column=name:, timestamp=1447766492893, value=Jim
 001201509011002              column=name:, timestamp=1447766547713, value=Tom
 001201509011008              column=name:, timestamp=1447767278902, value=lucy
 001201509011009              column=name:, timestamp=1447767257259, value=Mike
 001201509011010              column=name:, timestamp=1447767236548, value=Peter

hbase(main):135:0> scan 'student',{COLUMNS=>'grade'}
ROW                           COLUMN+CELL
 001201509011001              column=grade:, timestamp=1447766751652, value=2
 001201509011002              column=grade:, timestamp=1447767073299, value=6
 001201509011003              column=grade:, timestamp=1447767130750, value=5
 001201509011004              column=grade:, timestamp=1447767139371, value=3
 001201509011005              column=grade:, timestamp=1447767146338, value=3
 001201509011006              column=grade:, timestamp=1447767153088, value=2
 001201509011007              column=grade:, timestamp=1447767173296, value=2
 001201509011008              column=grade:, timestamp=1447767181639, value=3
 001201509011009              column=grade:, timestamp=1447767190450, value=10
 001201509011010              column=grade:, timestamp=1447767198644, value=11
10 row(s) in 0.0220 seconds

hbase(main):136:0> scan 'student',{COLUMNS=>'course'}
ROW                           COLUMN+CELL
 001201509011001              column=course:english, timestamp=1447766828720, value=100
 001201509011001              column=course:math, timestamp=1447766813289, value=100
 001201509011002              column=course:english, timestamp=1447766987607, value=95
 001201509011002              column=course:math, timestamp=1447767003501, value=80
 001201509011006              column=course:math, timestamp=1447767489278, value=30
 001201509011007              column=course:math, timestamp=1447767474245, value=87
4 row(s) in 0.0130 seconds

查询表中指定区间的所有记录数：

也可以指定一些修饰词：TIMERANGE, FILTER, LIMIT, STARTROW, STOPROW, TIMESTAMP, MAXLENGTH,or COLUMNS。没任何修饰词，就是上边例句，就会显示所有数据行。

语法：scan '表名',{COLUMNS =>'列簇',LIMIT =>记录数,STARTROW=>'开始rowkey',STOPROW=>'结束rowkey'}

取出name列族，前3条记录

hbase(main):012:0> scan 'student',{COLUMNS=>['name'],LIMIT=>3}
ROW                           COLUMN+CELL
 001201509011001              column=name:, timestamp=1447766492893, value=Jim
 001201509011002              column=name:, timestamp=1447766547713, value=Tom
 001201509011008              column=name:, timestamp=1447767278902, value=lucy

取出name列族，前3条记录 rowkey[001201509011001,001201509011008) 左边闭合，右边开的数据。

hbase(main):014:0> scan 'student',{COLUMNS=>['name'],LIMIT=>3,STARTROW=>'001201509011001',STOPROW=>'001201509011008'}
ROW                           COLUMN+CELL
 001201509011001              column=name:, timestamp=1447766492893, value=Jim
 001201509011002              column=name:, timestamp=1447766547713, value=Tom

指定两列：name，grade

hbase(main):018:0> scan 'student',{COLUMNS=>['name','grade'],STARTROW=>'001201509011001',STOPROW=>'001201509011010'}

ROW                           COLUMN+CELL
 001201509011001              column=grade:, timestamp=1447766751652, value=2
 001201509011001              column=name:, timestamp=1447766492893, value=Jim
 001201509011002              column=grade:, timestamp=1447767073299, value=6
 001201509011002              column=name:, timestamp=1447766547713, value=Tom
 001201509011003              column=grade:, timestamp=1447767130750, value=5
 001201509011004              column=grade:, timestamp=1447767139371, value=3
 001201509011005              column=grade:, timestamp=1447767146338, value=3
 001201509011006              column=grade:, timestamp=1447767153088, value=2
 001201509011007              column=grade:, timestamp=1447767173296, value=2
 001201509011008              column=grade:, timestamp=1447767181639, value=3
 001201509011008              column=name:, timestamp=1447767278902, value=lucy
 001201509011009              column=grade:, timestamp=1447767190450, value=10
 001201509011009              column=name:, timestamp=1447767257259, value=Mike

可以根据 TIMERANGE查询：

hbase(main):020:0> scan 'student',{COLUMNS=>['grade'],LIMIT => 3,TIMERANGE=>[1447766751652,1447767257259]}

ROW                           COLUMN+CELL
 001201509011001              column=grade:, timestamp=1447766751652, value=2
 001201509011002              column=grade:, timestamp=1447767073299, value=6
 001201509011003              column=grade:, timestamp=1447767130750, value=5

删除数据：

rowkey=001201509011002 的数据有4列

hbase(main):024:0> get 'student','001201509011002'
COLUMN                        CELL
 course:english               timestamp=1447766987607, value=95
 course:math                  timestamp=1447767003501, value=80
 grade:                       timestamp=1447767073299, value=6
 name:                        timestamp=1447766547713, value=Tom

删除一行数据：

hbase(main):027:0> delete 'student','001201509011002','grade'

hbase(main):028:0> get 'student','001201509011002'
COLUMN                        CELL
 course:english               timestamp=1447766987607, value=95
 course:math                  timestamp=1447767003501, value=80
 name:                        timestamp=1447766547713, value=Tom

查看那一行的数据：发现没有了。

hbase(main):033:0> scan 'student',{COLUMNS=>['grade'],STARTROW=>'001201509011002',STOPROW=>'001201509011003'}
ROW                           COLUMN+CELL
0 row(s) in 0.0080 seconds

posted @ 2021-12-21 21:17 hanease 阅读(98) 评论(0) 收藏举报

刷新页面返回顶部

hanease