NoSQL简介
NOSQL概述
NoSQL(Not Only SQL)意思是:不仅仅是SQL,是一项全新的数据库理念,泛指非关系型的数据库。强调 Key-Value Stores和文档数据库的优点。
随着互联网web2.0网站的兴起,传统的关系数据库在应付web2.0网站,特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心,暴露了很多难以克服的问题,而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战,尤其是大数据应用难题。
NOSQL起源
过去,关系型数据库(SQL Server、Oracle、MySQL)是数据持久化的唯一选择,但随着发展,关系型数据库存在以下问题。
-
不能满足高性能查询需求
我们使用Java、.Net等语言编写程序,是面向对象的,数据库都是关系型数据库。存储结构是面向对象的,而是数据库却是关系的,所以在每次存储或者查询数据时,我们都需要做转换。类似Hibernate、Mybatis这样的ORM框架确实可以简化这个过程,但是在对高性能查询需求时,这些ORM框架就捉襟见肘了。
-
应用程序规模的变大
网络应用程序的规模变大,需要储存更多的数据、服务更多的用户以及需求更多的计算能力。为了应对这种情形,我们需要不停的扩展。
扩展分为两类:一种是纵向扩展,即购买更好的机器,更多的磁盘、更多的内存等等。另一种是横向扩展,即购买更多的机器组成集群。在巨大的规模下,纵向扩展发挥的作用并不是很大。首先单机器性能提升需要巨额的开销并且有着性能的上限,在Google和Facebook这种规模下,永远不可能使用一台机器支撑所有的负载。鉴于这种情况,我们需要新的数据库,因为关系数据库并不能很好的运行在集群上。
NOSQL和关系型数据库比较
优点:
-
成本:nosql数据库简单易部署,基本都是开源软件,不需要像使用oracle那样花费大量成本购买使用,相比关系型数据库价格便宜。
-
查询速度:nosql数据库将数据存储于缓存之中,关系型数据库将数据存储在硬盘中,自然查询速度远不及nosql数据库。
-
存储数据的格式:nosql的存储格式是key,value形式、文档形式、图片形式等等,所以可以存储基础类型以及对象或者是集合等各种格式,而数据库则只支持基础类型。
-
扩展性:关系型数据库有类似join这样的多表查询机制的限制导致扩展很艰难。
缺点:
-
维护的工具和资料有限,因为nosql是属于新的技术,不能和关系型数据库10几年的技术同日而语。
-
不提供对sql的支持,如果不支持sql这样的工业标准,将产生一定用户的学习和使用成本。
-
不提供关系型数据库对事务的处理。
非关系型数据库的优势:
-
性能NOSQL是基于键值对的,可以想象成表中的主键和值的对应关系,而且不需要经过SQL层的解析,所以性能非常高。
-
可扩展性同样也是因为基于键值对,数据之间没有耦合性,所以非常容易水平扩展。
关系型数据库的优势:
-
复杂查询可以用SQL语句方便的在一个表以及多个表之间做非常复杂的数据查询。
-
事务支持使得对于安全性能很高的数据访问要求得以实现。对于这两类数据库,对方的优势就是自己的弱势,反之亦然。
关系型数据库与NoSQL数据库并非对立而是互补的关系,即通常情况下使用关系型数据库,在适合使用NoSQL的时候使用NoSQL数据库,让NoSQL数据库对关系型数据库的不足进行弥补。一般会将数据存储在关系型数据库中,在nosql数据库中备份存储关系型数据库的数据。
NOSQL数据库类型
键值(Key-Value)存储数据库
-
相关产品: Tokyo Cabinet/Tyrant、Redis、Voldemort、Berkeley DB。
-
适用场景: 内容缓存,主要用于处理大量数据的高访问负载。 储存用户信息,比如会话、配置文件、参数、购物车等等。这些信息一般都和ID(键)挂钩,这种情景下键值数据库是个很好的选择。
-
不适用场景:
- 取代通过键查询,而是通过值来查询。Key-Value数据库中根本没有通过值查询的途径。
- 需要储存数据之间的关系。在Key-Value数据库中不能通过两个或以上的键来关联数据。
- 事务的支持。在Key-Value数据库中故障产生时不可以进行回滚。
-
数据模型: 一系列键值对。
-
优势: 快速查询。
-
劣势: 存储的数据缺少结构化。
列存储数据库
列存储数据库将数据储存在列族(column family)中,一个列族存储经常被一起查询的相关数据。举个例子,如果我们有一个Person类,我们通常会一起查询他们的姓名和年龄而不是薪资。这种情况下,姓名和年龄就会被放入一个列族中,而薪资则在另一个列族中。
- 相关产品:Cassandra、HBase、Riak。
- 典型应用:分布式的文件系统。
- 数据模型:以列簇式存储,将同一列数据存在一起。
- 优势:查找速度快,可扩展性强,更容易进行分布式扩展。
- 劣势:功能相对局限。不适用于ACID事务和原型设计。
文档型数据库
- 相关产品:CouchDB、MongoDB。(数据可以使用XML、JSON或者JSONB等多种形式存储)
- 典型应用:Web应用(与Key-Value类似,Value是结构化的)、日志、分析。
- 数据模型: 一系列键值对。
- 优势:数据结构要求不严格。
- 劣势: 查询性能不高,而且缺乏统一的查询语法。不支持事务。
图形(Graph)数据库
- 相关数据库:Neo4J、InfoGrid、Infinite Graph。
- 典型应用:社交网络,适用范围很小,主要用用网络拓扑分析,如脉脉的人员关系图等。
- 数据模型:图结构。
- 优势:利用图结构相关算法。
- 劣势:需要对整个图做计算才能得出结果,不容易做分布式的集群方案。
常见的NOSQL数据库
-
Memcached
挥发性(临时性)的键值存储,一般作为关系型数据库的缓存来使用,具有非常快的处理速度。由于存在数据丢失的可能,所以一般用来处理不需要持久保存的数据,用于需要使用expires时(需要定期清除数据)。使用一致性散列(Consistent Hashing)算法来分散数据。
-
Tokyo Tyrant
持久性的键值存储,用来处理需要持久保存,高速处理的数据,具有非常快的处理速度,用于不需要定期清除的数据。使用一致性散列(Consistent Hashing)算法来分散数据。
-
Redis
兼具Memcached和Tokyo Tyrant优势的键值存储,擅长处理数组类型的数据,具有非常快的处理速度,可以高速处理时间序列的数据,易于处理集合运算。拥有很多可以进行原子操作的方法,使用一致性散列(Consistent Hashing)算法来分散数据。
-
MongoDB
面向无需定义表结构的文档数据,具有非常快的处理速度,通过BSON的形式可以保存和查询任何类型的数据,无法进行JOIN处理,但是可以通过嵌入(embed)来实现同样的功能,使用sharding(范围分割)算法来分散数据。