LAXCUS对数据存储的优化

LAXCUS兼容行存储(NSM)和列存储(DSM)两种数据模型，实现了混合存储。同时在分布环境里，做到将数据的分发和备份自动处理，这样就不再需要人工干预了。
行存储，为了兼容广大用户对关系数据库的需求，结构上还是原来的样子，没有变化。列存储，因为是近年才流行起来的一种存储模型，以前应用得少，大家的了解不多，所以这里主要讲一讲列存储和比较两种存储模型的优缺点。

先看下图，比较一下行/列两种存储结构的差异。

   图左侧是行存储模型，每一行由不同属性的列值组成，数据是从左到右、从上到下的排列，形成行与行连接的布局。图右侧是列存储模型，同列的数据被组织到一起，成为集合，数据是从上向下、从左到右的排列，形成列集合与列集合连接的布局。

下面说说列存储的优点:
(1) 压缩
    从列存储的图上可以看出，列存储是把每个列的数据聚集在一起，这种存储格式就给同质数据的压缩提供了条件。举个例子，在"Title"这一列中，如果有100个"LAXCUS"的词条。行存储做法是，把"LAXCUS"写到每一行的"Title"列里，磁盘里将出现100个"LAXCUS"的词条。在列存储中，这个工作可以这样做：在"Title"前面加一个计数器，每增加一个“LAXCUS”，计数器加1，累计增加100次，而数据本身不需要改变。两者相比，行存储需要的存储空间是列存储的100倍，列存储避免了数据重复的现象，这样就极大地压缩了存储空间。

(2) 索引
    在行存储，索引需要在行数据之外开辟一块存储空间，索引和数据是分开的。当检索数据的时候，首先要找到索引，然后才能定位到数据。我们经常使用的"CREATE INDEX"语句就是建立这样的映射关系。而在列存储中，索引和数据的实质是一个数据。也就是说，当我们检索数据的时候，找到索引的同时，也找到了数据。这样的结果就是：与行存储相比，列存储省略了索引空间，检索时效率也比行存储高。

posted on 2015-03-20 11:23 laxcus 阅读(181) 评论(0) 收藏举报