存储引擎-Bitcast

Bitcast是一种日志型的基于hash表结构的健值对的存储系统，最早追溯于Riak分布式数据库。

目前，Berkeley DB，Tokyo Cabinet，Innostore都使用了这种存储引擎。使用这种引擎拥有以下优点：

比较低的读写时延。
比较高的随机写吞吐率。
能够控制更大的数据库。
容易备份和恢复。
相对简单，容易理解。
可预计的高访问压力情况。

Bitcast只支持追加操作（Append-only），即所有的写操作只追加而不修改老的数据，每个文件都有一定的大小限制，当文件增加到相应的大小，就会产生一个新的文件，老的文件只读不写。在任意时刻，只有一个文件是可写的，用于追加数据，被称为活跃数据文件（active data file）。而其它已经达到大小限制的文件，被称为（older data file）。

活跃数据文件仅支持追加写入，因此所有的写入操作都是串形化的而不用磁盘随机定位。写入的健值对格式如下：

健值对的删除也是追加写的方式写入活动数据文件中，真正的删除会在下一次的数据合并中进行，

合并操作是定时对所有的旧数据文件进行扫描并生成新的数据文件（其本质是将同一个Key的多个操作进行合并。）

在Bitcast模型中，使用了Hash表的索引结构。除了存储在磁盘的数据文件，还有内存中的Hash表，通过Hash表中的key值可以快速地定位到磁盘中的数据。大致结构如下图所示：

hash表对应的这个结构中包括了三个用于定位数据value的信息，分别是文件id号(file_id)，value值在文件中的位置（value_pos）,value值的大小（value_sz），于是我们通过读取file_id对应文件的value_pos开始的value_sz个字节，就得到了我们需要的value值。整个过程如下图所示：

从上面我们可以知道，索引的Hash表存放在内存中，如果发生系统重启，则须要扫描磁盘中的数据重建Hash表，如果数据量非常大，这个过程是非常耗时的。因此，Bitcast模型中还要生成一个hint file，在这处文件中，数据结构与磁盘中的数据文件非常相似，不同的是他不存储具体的value值，而是存储value的位置信息。其结构如下图：

这样，在重建hash表时，就不需要再扫描所有的数据文件，而仅仅需要将hint file中的数据一行行读取并重建即可。大大提高了利用数据文件重启数据库的速度。

可参考源码

beansdb.googlecode.com/files/beansdb-0.5.2.tar.gz

posted @ 2015-01-03 16:51 sinaxyz 阅读(4665) 评论(1) 收藏举报

刷新页面返回顶部

sinaxyz

Make things as simple as possible, but no simpler.

存储引擎-Bitcast

公告