1.存储实例
(1)每个column Family存储在HDFS上的一个单独的文件中;
(2)Key和Version Number在每个Column Family中均有一份;
(3)空值不会被保存;
(4)HBase为每个值维护了多级索引,即Row Key,Column Family,Column Name,TimeStamp等;
2.物理存储
(1)table中的所有行都按照row key的字典有序排序
(2)table在行的方向上分割为多个region
(3)region按照大小分割的,每个表开始只有一个region,随着数据的增多,region会不断增大,当增大到一个阈值时,region就会等分成两个新的region,之后会有越来越多的region;
(4)region是HBase中分布式存储和负载均衡的最小单元;不同的region分布到不同的regionServer上;
(5)region虽然是分布式存储的最小单元,但并不是存储的最小单元;region有一个或者多个store组成,每个store保存一个column Family;每个store又由一个memStore和0至多个SotreFile组成,memStore存储在内存中,storeFile存储在HDFS上;