NoSQL 知识汇总
简介
Not Only SQL。弥补传统是关系型数据库的缺陷,满足现下互联网海量数据、高并发、低延迟和非结构化数据易扩展等需求。
传统关系型数据库的优势:
- 复杂查询可以用SQL语句方便的在一个表以及多个表之间做非常复杂的数据查询。
- 事务支持使得对于安全性能很高的数据访问要求得以实现。
传统的关系型数据库的缺陷:
- 结构化数据;
- 在大数据量和多服务器之上进行水平伸缩的限制;
NoSQL 的优势:
- 灵活的数据模型,可以处理非结构化/半结构化的大数据;
- 可伸缩性(向上扩展与水平扩展);
- 在不太影响性能的情况,就可以方便的实现高可用的架构;
- 具有非常高的读写性能,尤其在大数据量下性能损耗很小,得益于其数据库的结构简单。
区别
SQL 和 NoSQL 对于如何存储和检索数据,都有不同的哲学。
对于SQL数据库,所有数据都有一个固有的结构,传统数据库使用schema,即明确的定义,如何将数据插入到数据库中。例如,表中给定的列只能限于整数,因此,此栏所记录的数据将具有高度的标准化。一个SQL数据库的刚性模式也使得对数据进行聚合变得相对容易,例如通过连接方式。
- 1.存储方式
关系型数据库是表格式的,因此存储在表的行和列中。他们之间很容易关联协作存储,提取数据很方便。而Nosql数据库则与其相反,他是大块的组合在一起。通常存储在数据集中,就像文档、键值对或者图结构。 - 2.存储结构
关系型数据库对应的是结构化数据,数据表都预先定义了结构(列的定义),结构描述了数据的形式和内容。这一点对数据建模至关重要,虽然预定义结构带来了可靠性和稳定性,但是修改这些数据比较困难。而Nosql数据库基于动态结构,使用与非结构化数据。因为Nosql数据库是动态结构,可以很容易适应数据类型和结构的变化。 - 3.存储规范
关系型数据库的数据存储为了更高的规范性,把数据分割为最小的关系表以避免重复,获得精简的空间利用。虽然管理起来很清晰,但是单个操作设计到多张表的时候,数据管理就显得有点麻烦。而Nosql数据存储在平面数据集中,数据经常可能会重复。单个数据库很少被分隔开,而是存储成了一个整体,这样整块数据更加便于读写。 - 4.存储扩展
这可能是两者之间最大的区别,关系型数据库是纵向扩展,也就是说想要提高处理能力,要使用速度更快的计算机。因为数据存储在关系表中,操作的性能瓶颈可能涉及到多个表,需要通过提升计算机性能来克服。虽然有很大的扩展空间,但是最终会达到纵向扩展的上限。而Nosql数据库是横向扩展的,它的存储天然就是分布式的,可以通过给资源池添加更多的普通数据库服务器来分担负载。 - 5.查询方式
关系型数据库通过结构化查询语言来操作数据库(就是我们通常说的SQL)。SQL支持数据库CURD操作的功能非常强大,是业界的标准用法。而Nosql查询以块为单元操作数据,使用的是非结构化查询语言(UnQl),它是没有标准的。关系型数据库表中主键的概念对应Nosql中存储文档的ID。关系型数据库使用预定义优化方式(比如索引)来加快查询操作,而Nosql更简单更精确的数据访问模式。 - 6.事务
关系型数据库遵循ACID规则,而 NoSQL 数据库遵循BASE原则(基本可用(Basically Availble)、软/柔性事务(Soft-state )、最终一致性(Eventual Consistency))。由于关系型数据库的数据强一致性,所以对事务的支持很好。关系型数据库支持对事务原子性细粒度控制,并且易于回滚事务。而NoSQL 数据库是在CAP(一致性、可用性、分区容忍度)中任选两项,因为基于节点的分布式系统中,很难全部满足,所以对事务的支持不是很好,虽然也可以使用事务,但是并不是 NoSQL 的闪光点。 - 7.性能
关系型数据库为了维护数据的一致性付出了巨大的代价,读写性能比较差。在面对高并发读写性能非常差,面对海量数据的时候效率非常低。而Nosql存储的格式都是key-value类型的,并且存储在内存中,非常容易存储,而且对于数据的 一致性是 弱要求。Nosql无需sql的解析,提高了读写性能。 - 8.授权方式
付费与开源的区别。
使用NoSQL,数据可以以无模式或自由格式存储,任何数据都可以存储在任何记录中。在NoSQL数据库中,你将找到四个用于存储数据的常用模型。
无模式数据存储在以下场景中是有用的:
- 希望快速访问数据,更关心访问速度和简单性,而不是可靠的事务或一致性。
- 正在存储大量的数据,并且不想将自己锁在一个模式中,因为稍后更改模式可能会比较缓慢和痛苦。
- 正在接收来自一个或多个源的非结构化数据,希望将数据保存在原始表单中,以获得最大的灵活性。
- 希望将数据存储在分层结构中,但希望这些层次结构由数据本身描述,而不是外部模式。NoSQL允许数据以随意的方式进行自我引用,这对于SQL数据库来说更加复杂。
分类
主流的NOSQL数据库主要分为4类:
键值(Key-Value)存储数据库
这一类数据库主要会使用到一个哈希表,这个表中有一个特定的键和一个指针指向特定的数据。Key/value模型对于IT系统来说的优势在于简单、易部署。但是如果DBA只对部分值进行查询或更新的时候,Key/value就显得效率低下。例如:Redis、Memcache、DynamoDB等
列存储(Wide-Column)数据库
列存储数据库,也可以称为 BigTable 实现(BigTable-implementations),通常是用来应对分布式存储的海量数据。主键指向多个列,这些列是由列家族来安排的。如:Cassandra, HBase。
文档型(Document)数据库
文档型数据库的灵感是来自于Lotus Notes办公软件的,而且它同第一种键值存储相类似。该类型的数据模型是版本化的文档,半结构化的文档以特定的格式存储,比如JSON。文档型数据库可 以看作是键值数据库的升级版,允许之间嵌套键值。而且文档型数据库比键值数据库的查询效率更高。如:CouchDB, MongoDB。
图形(Graph)数据库
图形结构的数据库同其他行列以及刚性结构的SQL数据库不同,它是使用灵活的图形模型,并且能够扩展到多个服务器上。NOSQL数据库没有标准的查询语言(SQL),因此进行数据库查询需要制定数据模型。许多NOSQL数据库都有REST式的数据接口或者查询API。 如:OrientDB, Neo4J, Titan等。
其他还有类似对象数据库,XML数据库。另外很多NOSQL数据库其实是支持多模型的,比如OrientDB同时支持Key-Value, Document, Graph, Object数据库。
MongoDB
优点
- 面向文档存储,存储格式 BSON 类似 JSON,数据操作起来比较简单和容易;
- 热数据存放内存,查询效率非常高;支持比传统关系型数据库更高的写负载,拥有更高的插入速度;
- 处理很大的规模的单表,当数据表太大的时候可以很容易的分割表。
- 高可用性,设置M-S不仅方便而且很快,MongoDB还可以快速、安全及自动化的实现节点(数据中心)故障转移。
- 快速的查询,MongoDB支持二维空间索引,比如管道,因此可以快速及精确的从指定位置获取数据。MongoDB在启动后会将数据库中的数据以文件映射的方式加载到内存中。如果内存资源相当丰富的话,这将极大地提高数据库的查询速度。
- 非结构化数据的爆发增长,增加列在有些情况下可能锁定整个数据库,或者增加负载从而导致性能下降,由于 MongoDB 的弱数据结构模式,添加1个新字段不会对旧表格有任何影响,整个过程会非常快速。
- 数据之间没有耦合性,所以非常容易水平扩展。自带shard功能;
- 支持MapReduce,聚合操作性能很高支持MapReduce,聚合操作性能很高
缺点
- 不支持事务;
- MongoDB 满足性能需求,但不支持关联查询;
- MongoDB 占用空间过大;
- MongoDB 没有成熟的维护工具(?)。