HBase-day01 HBase基本概述和相关概念

Hbase基本概述

1.1 HBase概述

HBase 是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，用于存储海量的结构化或者半结构化，非结构化的数据

HBase是Hadoop的生态系统之一，是建立在Hadoop文件系统（HDFS）之上的分布式、面向列的数据库，通过利用Hadoop的文件系统提供容错能力。如果需要进行实时读写或者随机访问大规模的数据集的时候，会考虑使用HBase。

HBase作为Google Bigtable的开源实现，Google Bigtable利用GFS作为其文件存储系统类似，则HBase利用Hadoop HDFS作为其文件存储系统；Google通过运行MapReduce来处理Bigtable中的海量数据，同样，HBase利用Hadoop MapReduce来处理HBase中的海量数据；Google Bigtable利用Chubby作为协同服务，HBase利用Zookeeper作为对应。在2010年5月，成为apache顶级项目

1.2 HBase处理数据

虽然Hadoop是一个高容错、高延时的分布式文件系统和高并发的批处理系统，但是它不适用于提供实时计算；

HBase是可以提供实时计算的分布式数据库，数据被保存在HDFS分布式文件系统上，由HDFS保证期高容错性;

但是在生产环境中，HBase是如何基于hadoop提供实时性呢？

HBase上的数据是以StoreFile(HFile)二进制流的形式存储在HDFS上block块儿中；

但是HDFS并不知道的HBase用于存储什么，它只把存储文件认为是二进制文件，也就是说，HBase的存储数据对于HDFS文件系统是透明的。

1.3 HBase与HDFS

在下面的表格中，我们对HDFS与HBase进行比较：

HDFS	HBase
HDFS适于存储大容量文件的分布式文件系统。	HBase是建立在HDFS之上的数据库。
HDFS不支持快速单独记录查找。	HBase提供在较大的表快速查找
HDFS提供了高延迟批量处理;没有批处理概念。	HBase提供了数十亿条记录低延迟访问单个行记录（随机存取）。
HDFS提供的数据只能顺序访问。	HBase内部使用哈希表和提供随机接入，并且其存储索引，可将在HDFS文件中的数据进行快速查找。

Hbase--->HashMap

HBase相关概念

2.1 分布式数据库

2.2 列式存储

2.3 稀疏性

HBase中需要根据行键、列族、列限定符和时间戳来确定一个单元格，因此，可以视为一个“四维坐标”，即[行键, 列族, 列限定符, 时间戳]

Hbase的稀疏性和传统数据库

通常在传统的关系性数据库中，每一列的数据类型是事先定义好的，会占用固定的内存空间，在此情况下，属性值为空（NULL）的列也需要占用存储空间。

而在 HBase 中的数据都是以字符串形式存储的，为空的列并不占用存储空间，因此 HBase 的列存储解决了数据稀疏性的问题，在很大程度上节省了存储开销。所以 HBase 通常可以设计成稀疏矩阵，同时这种方式比较接近实际的应用场景。

2.4 数据模型

表：HBase的数据同样是用表来组织的，表由行和列组成，列分为若干个列族，行和列的坐标交叉决定了一个单元格。

行：每个表由若干行组成，每个行有一个行键作为这一行的唯一标识。访问表中的行只有三种方式：通过单个行键进行查询、通过一个行键的区间来访问、全表扫描。

列族：一个HBase表被分组成许多“列族”的集合，它是基本的访问控制单元。

列修饰符（列限定符）：列族里的数据通过列限定符（或列）来定位

单元格：在HBase表中，通过行、列族和列限定符确定一个“单元格”（cell），单元格中存储的数据没有数据类型，总被视为字节数组byte[]

时间戳：每个单元格都保存着同一份数据的多个版本，这些版本采用时间戳进行索引

2.4.1 Hbase数据模型

HBase将数据存放在带有标签的表中，表由行和列组成，行和列交叉确定一个单元格，单元格有版本号，版本号自动分配，为数据插入该单元格时的时间戳。单元格的内容没有数据类型，所有数据都被视为未解释的字节数组。

表格中每一行有一个行键（也是字节数组，任何形式的数据都可以表示成字符串，比如数据结构进行序列化之后），整个表根据行键的字节序来排序，所有对表的访问必须通过行键。

表中的列又划分为多个列族（column family），同一个列族的所有成员具有相同的前缀，具体的列由列修饰符标识，因此，列族和列修饰符合起来才可以表示某一列，比如：info:format、cotents:image

在创建一个表的时候，列族必须作为模式定义的一部分预先给出，而列族是支持动态扩展的，也就是列族成员可以随后按需加入。物理上，所有的列族成员一起存放在文件系统上，所以实际上说HBase是面向列的数据库，更准确的应该是面向列族，调优和存储都是在列族这个层次上进行的。一般情况下，同一个列族的成员最后具有相同的访问模式和大小特征。

总结起来，HBase表和我们熟知的RDBMS的表很像，不同之处在于：行按行键排序，列划分为列族，单元格有版本号，没有数据类型。

2.4.2 Hbase数据坐标

HBase中需要根据行键、列族、列限定符和时间戳来确定一个单元格(cell)，cell中的数据是没有类型的，全部是字节码形式存贮。，因此，可以视为一个“四维坐标”，即
[行键, 列族, 列限定符, 时间戳]。

对于上图这样一个HBase表，其数据坐标举例如下：

键	值
[“201505003”, “Info”, “email”, 1174184619081]	“xie@qq.com”
[“201505003”, “Info”, “email”, 1174184620720]	“you@163.com”

posted on 2022-07-05 16:51 +1000 阅读(250) 评论(0) 收藏举报