hbase实践之数据读取详解

hbase基本存储组织结构与数据读取组织结构对比

Segment是Hbase2.0的概念，MemStore由一个可写的Segment，以及一个或多个不可写的Segments构成。故hbase 1.*版本中的MemstoreScanner变成了SegmentScanner。

对应关系表

hbase scanner体系与hbase存储组织结构是一一对应的。

flush 写磁盘时，不同ColumnFamily生成不同Hfile。
数据采用追加方式写入，在major compaction才发生数据删除或失效。数据的多个版本都会记录在hfile，数据删除也会生成一条记录，只是keytype标记为delete。

数据真正的读取过程只发生在StorefileScanner，其他scanner只是帮助缩小查找范围，类似于多级索引体系。

storefilescanner的读取抽象过程如图所示：

组织priorityqueue: 将包含rowkey的hfile文件组织成一个最小堆。最小堆的第一个元素一般是Memstore，从SegmentScanner(MemstoreScanner)开始。
根据过滤条件：Rowkey、ColumnFamily、Column等，从当前Scanner依次读取cell（keyvalue）数据；
当前Scanner数据扫描结束，扫描下一个Scanner,当前Scanner放到堆尾。

要想知道读取细节，首先需要了解HFile的结构：

数据根据索引Root Index Block、Leaf Index Block，定位DataBlock。在64k大小的DataBlock中，可以根据二分查找等算法，定位到数据。

posted @ 2018-11-25 20:17 small_k 阅读(651) 评论(0) 收藏举报

刷新页面返回顶部