HBase简介

前言

　　Hadoop已经包括了HDFS和MapReduce，可以很好的解决大规模数据的离线批量处理，但是受限于MR架构的高延迟数据处理机制，使得Hadoop不能满足大规模数据实时处理应用；HDFS面向批量访问模式，不是随机访问模式；传统的通用关系型数据库无法应对在数据规模剧增时导致的系统扩展性和性能问题（分库分表也不能很好解决）；传统关系型数据库在数据结构发生变化时一般需要停机维护，空列浪费存储空间。

HBase与RDBM数据库（Relational DataBase Management）对比

数据类型：RDBM采用关系模型，具有丰富的数据类型和存储方式。HBase采用了更为简单的数据模型把数据存储为未经解释的字符串；
数据操作：RDBM包含丰富的操作，涉及复杂的多表关联。HBase操作不存在复杂的表与表之间的关系，只有简单的插入、查询、删除、清空等，这是因为HBase在设计的时候就避免了复杂的表与表之间的关系；
存储模式：RDBM是基于行模式存储的，HBase是基于列模式存储的，每个列族都由几个文件保存，不同列族的文件是分离的；
数据索引：RDBM会针对不同列构建复杂的索引，以提高数据查询性能、HBase只有一个索引----RowKey，通过巧妙的设计，HBase的所有访问方式：通过rowkey访问、或者通过rowkey扫描，从而使整个系统不会慢下来；
数据维护：RDBM中更新数据操作，会用最新的当前值替换旧值，旧值就不会存在。HBase执行更新时，并不会删除旧版本数据，而是生成新的版本；
可伸缩性：RDBM很难实现横向扩展，纵向扩展的能力也有限。相反HBase分布式数据库就是为了实现灵活的水平扩展，能够轻松的通过在集群中增加或者减少硬件数量来实现性能的伸缩。

HBase数据模型

　　HBase是一个稀疏、多维度、排序的映射表，这张表的索引是行键、列族、列限定符和时间戳。

　　每个值都是未经解释的字符串，没有数据类型，在表中存储数据每一行都有一个可排序的行键和任意多的列；表在水平方向上由一个或多个列族组成，每个列族可以包含任意多的列，同一个列族里边的数据存储在一起；列族支持动态扩展，可以很轻松的添加一个列族和列，无需预先定义列的数量以及类型，所有的列均以字符串的形式存储，用户需要自行进行数据转换；HBase在执行更新操作时，不会删除旧版本的数据，而是生成新的版本，旧版本仍然保留（这跟HDFS只能追加不允许修改的原因有关）。