Nosql

单机MySQL的美好时代

在90年代，一个网站的访问量一般都不大，用单个数据库完全可以轻松应付。
在那个时候，更多的都是静态网页，动态交互类型的网站不多
初期架构 | center
DAL，（Data Access Layer）。其功能主要是负责数据库的访问。简单地说就是实现对数据表的Select（查询）、Insert（插入）、Update（更新）、Delete（删除）等操作。
上述架构下，我们来看看数据存储的瓶颈是什么？
- 1、数据量的总大小一个机器放不下时。（表要占空间，表的索引要占空间）
- 2、数据的索引（B+ Tree树）一个机器的内存放不下时库

如果满足了上述1 or 3个，则需要进化..

Memcached(缓存,java上还有一个ehcache)+MySQL+垂直拆分

后来，随着访问量的上升，几乎大部分使用MySQL架构的网站在数据库上都开始出现了性能问题，web程序不再仅仅专注在功能上，同时也在追求性能。程序员们开始大量的使用缓存技术来缓解数据库的压力，优化数据库的结构和索引。开始比较流行的是通过文件缓存来缓解数据库压力，但是当访问量继续增大的时候，多台web机器通过文件缓存不能共享，大量的小文件缓存也带了了比较高的IO压力。

在这个时候，Memcached就自然的成为一个非常时尚的技术产品。

Memcached作为一个独立的分布式的缓存服务器，为多个web服务器提供了一个共享的高性能缓存服务，在Memcached服务器上，又发展了根据hash算法来进行多台Memcached缓存服务的扩展，然后又出现了一致性hash来解决增加或减少缓存服务器导致重新hash带来的大量缓存失效的弊端

Mysql主从读写分离

由于数据库的写入压力增加，Memcached只能缓解数据库的读取压力。读写集中在一个数据库上让数据库不堪重负，大部分网站开始使用主从复制技术来达到读写分离，以提高读写性能和读库的可扩展性。Mysql的master-slave模式成为这个时候的网站标配了。为了容灾备份，为了混存数据，主从复制：主库插一条数据，从库也马上插一条，读写分离：

分表分库+水平拆分+mysql集群

在Memcached的高速缓存，MySQL的主从复制，读写分离的基础之上，这时MySQL主库的写压力开始出现瓶颈，而数据量的持续猛增，由于MyISAM使用表锁，在高并发下会出现严重的锁问题，大量的高并发MySQL应用开始使用InnoDB引擎代替MyISAM。
什么是表锁和行锁，表锁就是当一个事件在用这个表的时候，其他的表候着，等于说把这个表锁住了。就像去上卫生间把门先锁上，行锁也是这样理解，表中有很多行，我使用的那个行，被我锁住，其他的事件不能用这个行。innodb就是使用的行锁，而myISAM使用的是表锁。行锁相对于表锁，限制少，所以行锁的高并发高，所以用了inonodb
同时，开始流行使用分表分库（就是尽可能的紧耦合把业务相关的分在一起，比如说用户的身份证号码。注册信息都是长期补变的，这些数据都是一些趋于冷的冷数据，所以一般情况下这些长期不变的数据放在一起库，而一些高度活跃的数据放在一个库，分表指的是一部分表和分库是一样的原理）来缓解写压力和数据增长的扩展问题。这个时候，分表分库成了一个热门技术，是面试的热门问题也是业界讨论的热门技术问题。也就在这个时候，MySQL推出了还不太稳定的表分区，这也给技术实力一般的公司带来了希望。虽然MySQL推出了MySQL Cluster（这个单词就是集群的意思）集群，但性能也不能很好满足互联网的要求，只是在高可靠性上提供了非常大的保证

MySQL的扩展性瓶颈

MySQL数据库也经常存储一些大文本字段，导致数据库表非常的大，在做数据库恢复的时候就导致非常的慢，不容易快速恢复数据库。比如1000万4KB大小的文本就接近40GB的大小，如果能把这些数据从MySQL省去，MySQL将变得非常的小。关系数据库很强大，但是它并不能很好的应付所有的应用场景。MySQL的扩展性差（需要复杂的技术来实现），大数据下IO压力大，表结构更改困难，正是当前使用MySQL的开发人员面临的问题。

今天是什么样子

这张图最开始是用户，第二个是防火墙，第三个是nginx，表示反向代理服务器（反向代理就是根据客户端的要求从自己关联的一组或者多组服务器获取资源进而反馈给客户端，反向代理就是充当了服务端的代理，正常的代理服务器都是从客户端到服务端，代理的是客户端，隐藏真实的客户，为客户端收发请求，使真实客户端对服务器不可见，这而反向的代理的是服务端，获取服务器ip的时候获取的是反向代理服务器的IP,），用来处理负载均衡(负载均衡就是将请求分发到各个服务器)。

nginx 这个轻量级、高性能的 web server 主要可以干两件事情：

　　〉直接作为http server(代替apache，对PHP需要FastCGI处理器支持)；
　　〉另外一个功能就是作为反向代理服务器实现负载均衡

　　因为nginx在处理并发方面的优势，现在这个应用非常常见。当然了Apache的 mod_proxy和mod_cache结合使用也可以实现对多台app server的反向代理和负载均衡，但是在并发处理方面apache还是没有 nginx擅长。

为什么用NOSQL,

今天用户生成的数据和用户操作日志已经成倍的增加，传统的SQl数据库已经难以为继

NoSQL是什么

NoSQL(NoSQL = Not Only SQL )，意即“不仅仅是SQL”，泛指非关系型的数据库。随着互联网web2.0网站的兴起，传统的关系数据库在应付web2.0网站，特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心，暴露了很多难以克服的问题，而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战，尤其是大数据应用难题。

例如谷歌每天处理上万亿的比特的数据，这些类型的数据存储不需要固定的模式，无需多余的操作就可以横向扩展。

NoSQL能干什么

NoSQL，有三大重要的特性：

易扩展

大数据量高性能

多样灵活的数据模型

易扩展：NoSQL数据库种类繁多，但是一个共同的特点都是去掉关系数据库的关系型特性。数据之间无关系，这样就非常容易扩展。

也无形之间，在架构的层面上带来了可扩展的能力。

大数据量高性能：NoSQL数据库都具有非常高的读写性能（有一个数据是一秒钟读8万，写10万），尤其在大数据量下，同样表现优秀。这得益于它的无关系性，数据库的结构简单。一般MySQL使用Query Cache（查询缓存），每次表的更新Cache就失效，是一种大粒度的Cache，在针对web2.0的交互频繁的应用，Cache性能不高。而NoSQL的Cache是记录级的，是一种细粒度的Cache，所以NoSQL在这个层面上来说就要性能高很多了

多样灵活的数据模型：NoSQL无需事先为要存储的数据建立字段，随时可以存储自定义的数据格式。而在关系数据库里，增删字段是一件非常麻烦的事情（）。如果是非常大数据量的表，增加字段简直就是一个噩梦，字段就是表的索引，因为在mysql中是表结构，而Nosql是字典结构。

NoSQL的3V+3高（这个怎么记忆,v描述的是数据多，高描述的是性能好，）想像一下的现在的数据是类型多，数量大，实时性高（实时性不太容易想起来），性能表示的是高并发，高扩展，高性能。海量数据的应用（淘宝，微信，等等）

大数据时代的3V：
- 海量Volume
- 多样Variety
- 实时Velocity
Volume、Variety、Velocity。这3V表明大数据的三方面特质：量大、多样、实时。对，不光是数据量大了。对TB、PB数据级的处理，已经成为基本配置。还能处理多样性的数据类型，结构化数据和非结构化数据，能处理Web数据，能处理语音数据甚至是图像、视频数据。实时。以前的决策支持时代，可以用批量处理的方式，隔夜处理数据，等决策者第二天上班，可以看到昨天的经营数据。但现在的互联网时代，业务在24小时不间断运营，决策已经不是第二天上班才做出，而是在客户每次浏览页面，每次下订单的过程中都存在，都会需要对用户进行实时的推荐，决策已经变得实时。

互联网需求的3高
- 高并发
- 高可扩
- 高性能

当下Nosql的应用
当下是sql和Nosql一起使用，阿里巴巴中文网站的商品信息如何存放。

讲一下ali巴巴的网站的演变过程：

1》架构发展过程

5代开发的原因：为了开放，让用户参与进来

淘宝的数据架构的日益复杂性：

NoSQL数据模型简介

NoSQL聚合模型和 NoSQL数据库的四大分类：
- NoSQL聚合模型
  - KV键值
  - Bson（与java中的json（java程序与mysql等数据库连接的中间桥梁）类似的一种二进制形式的存储格式，简称binary JSon）
  - 列族
  - 图形
NoSQL数据库的四大分类：
- KV键值：这一类数据库主要会使用到一个哈希表，这个表中有一个特定的键和一个指针指向特定的数据。Key/value模型对于IT系统来说的优势在于简单、易部署。但是如果DBA只对部分值进行查询或更新的时候，Key/value就显得效率低下了。举例如：Tokyo Cabinet/Tyrant, Redis, Voldemort, Oracle BDB.
- 文档型数据库(bson格式比较多)：文档型数据库的灵感是来自于Lotus Notes办公软件的，而且它同第一种键值存储相类似。该类型的数据模型是版本化的文档，半结构化的文档以特定的格式存储，比如JSON。文档型数据库可以看作是键值数据库的升级版，允许之间嵌套键值。而且文档型数据库比键值数据库的查询效率更高。如：CouchDB, MongoDb. 国内也有文档型数据库SequoiaDB，已经开源。
- 列存储数据库：这部分数据库通常是用来应对分布式存储的海量数据。键仍然存在，但是它们的特点是指向了多个列。这些列是由列家族来安排的。如：Cassandra, HBase, Riak.
- 图关系数据库：图形结构的数据库同其他行列以及刚性结构的SQL数据库不同，它是使用灵活的图形模型，并且能够扩展到多个服务器上。NoSQL数据库没有标准的查询语言(SQL)，因此进行数据库查询需要制定数据模型。许多NoSQL数据库都有REST式的数据接口或者查询API。如：Neo4J, InfoGrid, Infinite Graph.

四大分类的典型介绍：

KV键值：典型介绍

新浪：BerkeleyDB+redis

美团：redis+tair

阿里、百度：memcache+redis

文档型数据库：典型介绍CouchDB MongoDB

列存储数据库 Cassandra, HBase

分布式文件系统

图关系数据库它不是放图形的，放的是关系比如:朋友圈社交网络，广告推荐系统社交网络，推荐系统等。专注于构建关系图谱 Neo4J, InfoGrid

如果只想高速缓存就是memcached，而如果还想兼顾其他，数据类型丰富，redis和tair更加出色

什么情况下可以用聚合模型来处理：
- 高并发的操作是不太建议有关联查询的，互联网公司用冗余数据来避免关联查询。
- 分布式事务是支持不了太多的并发的

在分布式数据库中CAP原理CAP+BASE

SQL 和 NoSQL

SQL和NOSQL特性 | center

SQL特性介绍
- A：（Atomicity）原子性:
  - 整个事务中的所有操作，要么全部完成，要么全部不完成，不可能停滞在中间某个环节。事务在执行过程中发生错误，会被回滚（Rollback）到事务开始前的状态，就像这个事务从来没有执行过一样。
- C：（Consistency）一致性
  - 一个事务可以封装状态改变（除非它是一个只读的）。事务必须始终保持系统处于一致的状态，不管在任何给定的时间并发事务有多少。
  - 也就是说：如果事务是并发多个，系统也必须如同串行事务一样操作。其主要特征是保护性和不变性(Preserving an Invariant)，
    - 以转账案例为例，假设有五个账户，每个账户余额是100元，那么五个账户总额是500元，如果在这个5个账户之间同时发生多个转账，无论并发多少个，比如在A与B账户之间转账5元，在C与D账户之间转账10元，在B与E之间转账15元，五个账户总额也应该还是500元，这就是保护性和不变性
- I：（Isolation）隔离性
  - 隔离状态执行事务，使它们好像是系统在给定时间内执行的唯一操作。如果有两个事务，运行在相同的时间内，执行相同的功能，事务的隔离性将确保每一事务在系统中认为只有该事务在使用系统。这种属性有时称为串行化，为了防止事务操作间的混淆，必须串行化或序列化请求，使得在同一时间仅有一个请求用于同一数据。
- D：（Durability）持久性
  - 在事务完成以后，该事务对数据库所作的更改便持久的保存在数据库之中，并不会被回滚。

acid怎么记忆：给原子写个故事，原子一致，持久隔离（我们原子都是一致的，是持久的隔离开的，化学中，原子在化学反应中不可分割，所以根据化学的方法来记忆）

NoSQL特性介绍
- C：（Consistency）强一致性
  - 任何一个读操作总是能读取到之前完成的写操作结果，也就是在分布式环境中，多点的数据是一致的;
- A：（Availability）高可用性
  - 每一个操作总是能够在确定的时间内返回，也就是系统随时都是可用的。
- P：（Partition tolerance）分布式容忍性
  - 在出现网络分区(比如断网)的情况下，分离的系统也能正常运行。
CAP的3进2
- CAP理论就是说在分布式存储系统中，最多只能实现上面的两点。
  而由于当前的网络硬件肯定会出现延迟丢包等问题，所以分区容忍性是我们必须需要实现的。（这个是Nosql必须具备的）
- 所以我们只能在一致性和可用性之间进行权衡，没有NoSQL系统能同时保证这三点。
  - C:强一致性 A：高可用性 P：分布式容忍性
    - CA 传统Oracle数据库
    - AP 大多数网站架构的选择
    - CP Redis、Mongodb
- 注：分布式架构的时候必须做出取舍。一致性和可用性之间取一个平衡。多余大多数web应用，其实并不需要强一致性。 因此牺牲C换取P，这是目前分布式数据库产品的方向。
- 比如双十一的时候，基于用户的大数据，访问量的巨大，为了保证网站不崩掉，一般都选择，实现AP，而数据的一致性，在网站崩掉面前显得微不足道，当然不是不保证一致性，而是弱一致性加AP，这个弱一致性可以由关系型数据库实现，而AP由非关系数据库实现
- 为啥只能三选2，而不能都选，这是因为他们之间有冲突，具体见 http://www.d1net.com/bigdata/solution/240330.html
一致性与可用性的决择
- 对于web2.0网站来说，关系数据库的很多主要特性却往往无用武之地
- **数据库事务一致性需求 **
  - 很多web实时系统并不要求严格的数据库事务，对读一致性的要求很低，有些场合对写一致性要求并不高。允许实现最终一致性。
- 数据库的写实时性和读实时性需求
  　* 对关系数据库来说，插入一条数据之后立刻查询，是肯定可以读出来这条数据的，但是对于很多web应用来说，并不要求这么高的实时性，比方说发一条消息之后，过几秒乃至十几秒之后，我的订阅者才看到这条动态是完全可以接受的。
- *对复杂的SQL查询，特别是多表关联查询的需求 **
  　任何大数据量的web系统，都非常忌讳多个大表的关联查询，以及复杂的数据分析类型的报表查询，特别是SNS类型的网站，从需求以及产品设计角度，就避免了这种情况的产生。往往更多的只是单表的主键查询，以及单表的简单条件分页查询，SQL的功能被极大的弱化了。
经典CAP图
- CAP理论的核心是：一个分布式系统不可能同时很好的满足一致性，可用性和分区容错性这三个需求，
- 最多只能同时较好的满足两个。
- 因此，根据 CAP 原理将 NoSQL 数据库分成了满足 CA 原则、满足 CP 原则和满足 AP 原则三大类：
  - CA - 单点集群，满足一致性，可用性的系统，通常在可扩展性上不太强大。
  - CP - 满足一致性，分区容忍必的系统，通常性能不是特别高。
  - AP - 满足可用性，分区容忍性的系统，通常可能对一致性要求低一些

BASE理论

BASE就是为了解决关系数据库强一致性引起的问题而引起的可用性降低而提出的解决方案。
BASE其实是下面三个术语的缩写：
- 基本可用（Basically Available）
- 软状态（Soft state）
- 最终一致（Eventually consistent）
它的思想是通过让系统放松对某一时刻数据一致性的要求来换取系统整体伸缩性和性能上改观。为什么这么说呢，缘由就在于大型系统往往由于地域分布和极高性能的要求，不可能采用分布式事务来完成这些指标，要想获得这些指标，我们必须采用另外一种方式来完成，这里BASE就是解决这个问题的办法，BASE的最终一致性是最重要的一句话，比如说双十一的时候，我们只需要保证基本可用的一致性（称为弱一致性），A（高可用性）P（分区容错）后面这两个必须保证，然会保证AP，在双十一完了之后，开发程序员还需要去统计数据的精准，这个就是实现最终一致。

/////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////

扩起来的这些话来自百度百科或者是维基百科，忘了

最终一致性根据更新数据后各进程访问到数据的时间和方式的不同，又可以区分为：

因果一致性。如果进程A通知进程B它已更新了一个数据项，那么进程B的后续访问将返回更新后的值，且一次写入将保证取代前一次写入。与进程A无因果关系的进程C的访问遵守一般的最终一致性规则。

“读己之所写（read-your-writes）”一致性。当进程A自己更新一个数据项之后，它总是访问到更新过的值，绝不会看到旧值。这是因果一致性模型的一个特例。

会话（Session）一致性。这是上一个模型的实用版本，它把访问存储系统的进程放到会话的上下文中。只要会话还存在，系统就保证“读己之所写”一致性。如果由于某些失败情形令会话终止，就要建立新的会话，而且系统的保证不会延续到新的会话。

单调（Monotonic）读一致性。如果进程已经看到过数据对象的某个值，那么任何后续访问都不会返回在那个值之前的值。

单调写一致性。系统保证来自同一个进程的写操作顺序执行。要是系统不能保证这种程度的一致性，就非常难以编程了。

上述最终一致性的不同方式可以进行组合，例如单调读一致性和读己之所写一致性就可以组合实现。并且从实践的角度来看，这两者的组合，读取自己更新的数据，和一旦读取到最新的版本不会再读取旧版本，对于此架构上的程序开发来说，会少很多额外的烦恼。

从服务端角度，如何尽快将更新后的数据分布到整个系统，降低达到最终一致性的时间窗口，是提高系统的可用度和用户体验非常重要的方面。对于分布式数据系统：

N — 数据复制的份数
W — 更新数据是需要保证写完成的节点数
R — 读取数据的时候需要读取的节点数

如果W+R>N，写的节点和读的节点重叠，则是强一致性。例如对于典型的一主一备同步复制的关系型数据库，N=2,W=2,R=1，则不管读的是主库还是备库的数据，都是一致的。

如果W+R<=N，则是弱一致性。例如对于一主一备异步复制的关系型数据库，N=2,W=1,R=1，则如果读的是备库，就可能无法读取主库已经更新过的数据，所以是弱一致性。

对于分布式系统，为了保证高可用性，一般设置N>=3。不同的N,W,R组合，是在可用性和一致性之间取一个平衡，以适应不同的应用场景。

如果N=W,R=1，任何一个写节点失效，都会导致写失败，因此可用性会降低，但是由于数据分布的N个节点是同步写入的，因此可以保证强一致性。
如果N=R,W=1，只需要一个节点写入成功即可，写性能和可用性都比较高。但是读取其他节点的进程可能不能获取更新后的数据，因此是弱一致性。这种情况下，如果W<(N+1)/2，并且写入的节点不重叠的话，则会存在写冲突

分布式+集群简介
- 分布式：不同的多台服务器上面部署不同的服务模块（工程），他们之间通过Rpc/Rmi之间通信和调用，对外提供服务和组内协作。
- 集群：不同的多台服务器上面部署相同的服务模块，通过分布式调度软件进行统一的调度，对外体统服务和访问。

RDBMS vs Nosql

RDBMS：

高度结构化组织化的数据

结构化的查询语言

数据和关系都存储在单独的表里，

数据操作语言，数据定义语言。

严格的一致性。

基础事务

Nosql：

代表的不仅仅是sql（not only sql）

没有声明性的查询语言

没有预定义的模式

键值存储，列存储，文档存储，图形数据库

最终一致性，非ACID

非结构化和不可预知的数据

CAP定理

高性能，高可用强大的伸缩扩展性。

面试的时候人家会问谈谈你对redis的理解：

1》他是什么

2》用来干什么

其实就是KV cache persistence
摘抄自周阳的尚硅谷笔记

posted on 2019-08-17 17:11 invender 阅读(132) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部