分布式系统之数据存储&分布概览

零、数据分类

　　1、非结构化数据：文本，图片，音频，视频等。这类数据一般称为Blob(Binary Large Object, 二进制大对象)。

　　2、结构化数据：可用表结构表示，具有相应的模式(Schema:如属性，数据类型和数据间的联系)，模式和内容分开，需预先定义。一般存储在关系型数据库中。

　　3、半结构化数据：介于结构化和非结构化数据直接。具有自描述性，模式和内容混在一起，如HTML。

一、分布式存储系统

　　1、分布式文件系统：存储文本，图片，音视频等非结构化数据。如google的GFS/colossus和开源的hdfs。

　　2、分布式键值系统：存储简单的半结构化数据。NoSql的分布式扩展，只提供基于key的增删改查（CRUD）功能。如Amazon的Dynamo。

　　3、分布式表格系统：存储复杂的半结构化数据。相较于分布式kv系统，他还支持基于key的范围查找。但相对于关系型数据库，他不支持复杂的操作，如多表关联，嵌套查询。典型的系统如google的bigtable和开源的hbase。

　　4、分布式数据库：存储结构化数据。分布式的关系型数据库。提供SQL关系查询语言。如：google的spanner和开源的hive。

二、单机存储引擎

　　存储系统提供的基本功能包括：增删改查（CRUD）。不同的存储方案根据业务不同侧重点不同，导致存储系统的性能和功能具有一定的差异。

目前主要的单机存储引擎有：

　　1、哈希存储：hash的CRUD是最快的。但缺点是不支持顺序扫描。bitcask是一个基于hash表结构的存储系统。他将写操作（包括删除标识）追加到文件尾。并定期合并新老文件&记录。

　　2、B树：笔者曾经思考过既支持随机读取又支持范围查找的系统。个人结论是B树就是为此而生。查找时间复杂度为log_d(n)（d为每个节点的出度）。Mysql的InnoDB的引擎和OS的文件系统使用的就是B+树。（为什么选择使用B树的变种B+树，读者有兴趣可以去探究下。提示：磁盘读取）

　　3、LSM树(Log Structured Merge Tree)：由B+数改进而来。其思想为：将增量写操作保存在内存中，超过阈值时刷入磁盘，从而减少随机写磁盘操作。读操作则需要合并磁盘数据和内存中的写操作。通过Memtable/SSTable实现，实现细节在此不做深入探究。比较适合写操作较多的业务场景。BigTable/HBase/Cassandra中的列簇的数据存储方式采用的即是LSM树。

三、分布式系统的数据分布

　　上面讲的仅仅是单机的存储引擎，在分布式系统上，最基本的一个问题就是如何对数据分片。主要有两种数据分布方式：

　　1、哈希分布：比较适用于键值系统。和单机的hash存储一样，缺点是不支持顺序扫描。哈希的选取比较重要:

　　　　a) 若随机散列，可能同个用户的多条记录落在不同的节点中，同时操作一个用户的多条记录将比较困难。

　　　　b) 按用户散列时，当用户数据分布不均时，可能导致数据倾斜。单节点压力将会较大。

　　而传统的哈希算法还有一个较严重的问题是：当有节点失效或者需要新增节点时(非成倍增加)，所有的节点数据都要重新分布，造成大量的数据迁移。解决这个问题的方法是采用大家耳熟能详的"一致性哈希"。具体笔者下一节进行细节描述。

　　2、顺序分布：适用于分布式表格系统/分布式关系数据库。优点不言而喻：支持范围扫描。类似于B+树，总控服务器负责数据的分布，维护着类似B+树的一套索引结构，根(root)表维护着元(meta)数据表的位置信息, 元(meta)数据表维护着用户(user)的真实数据表的位置信息。user表随着增删的操作，需要根据表的大小变化进行拆分和合并操作，并将表的变化操作记录于元(meta)数据表。

--------------------------END----------------------------------

posted on 2015-02-01 22:51 lhonglwl 阅读(1413) 评论(0) 编辑收藏举报

指间灵动，快码加编

刷新页面返回顶部

平凡的世界

分布式系统之数据存储&分布概览

导航

公告