关于数据库事务的机制

一、概念

首先看看什么是事务?事务具有哪些特性?关于事务,上大学的时候,你应该有接触过相关的课程。简单来说,事务是指作为单个逻辑

工作单元执行的一系列操作,这些操作要么全做,要么全不做,是一个不可分割的工作单元。

 一个逻辑工作单元要成为事务,在关系型数据库管理系统中,必须满足 4 个特性,即所谓的 ACID:原子性、一致性、隔离性和持久性。 

  • 一致性:事务完成之后,事务所做的修改进行持久化保存,不会丢失。

  • 原子性:事务的所有操作,要么全部完成,要么全部不完成,不会结束在某个中间环节。

  • 持久性:事务开始之前和事务结束之后,数据库的完整性限制未被破坏。

  • 隔离性:当多个事务并发访问数据库中的同一数据时,所表现出来的相互关系。

 ACID 及它们之间的关系如下图所示,比如 4 个特性中有 3 个与 WAL 有关系,都需要通过 Redo、Undo 日志来保证等。

 

 

1.一致性

 首先来看一致性,一致性其实包括两部分内容,分别是约束一致性和数据一致性。约束一致性:数据库中创建表结构时所指定的外键、

Check、唯一索引等约束。可惜在 MySQL 中,是不支持 Check 的,只支持另外两种,所以约束一致性就非常容易理解了。数据一致

性:是一个综合性的规定,或者说是一个把握全局的规定。因为它是由原子性、持久性、隔离性共同保证的结果,而不是单单依赖于

某一种技术。 

2.原子性 

接下来看原子性,原子性就是前面提到的两个“要么”,即要么改了,要么没改。也就是说用户感受不到一个正在改的状态。MySQL 是

通过 WAL(Write Ahead Log)技术来实现这种效果的。 

举例来讲,如果事务提交了,那改了的数据就生效了,如果此时 Buffer Pool 的脏页没有刷盘,需要使用 Redo 日志恢复出来的数据。

而如果事务没有提交,且 Buffer Pool 的脏页被刷盘了,需要通过 Undo 来实现了,Undo 又是通过 Redo 来保证的,所以最终原子性

的保证还是靠 Redo 的 WAL 机制实现的。 

3.持久性

 所谓持久性,就是指一个事务一旦提交,它对数据库中数据的改变就应该是永久性的,接下来的操作或故障不应该对其有任何影响。

前面已经讲到,事务的原子性可以保证一个事务要么全执行,要么全不执行的特性,这可以从逻辑上保证用户看不到中间的状态。

一旦事务提交,通过原子性,即便是遇到宕机,也可以从逻辑上将数据找回来后再次写入物理存储空间,这样就从逻辑和物理两个

方面保证了数据不会丢失,即保证了数据库的持久性。 

4.隔离性

 所谓隔离性,指的是一个事务的执行不能被其他事务干扰,即一个事务内部的操作及使用的数据对其他的并发事务是隔离的。锁

和多版本控制就符合隔离性。 

二、并发事务控制  

1.单版本控制-锁 

先来看锁,锁用独占的方式来保证在只有一个版本的情况下事务之间相互隔离,所以锁可以理解为单版本控制。 

在 MySQL 事务中,锁的实现与隔离级别有关系,在 RR(Repeatable Read)隔离级别下,MySQL 为了解决幻读的问题,以牺牲

并行度为代价,通过 Gap 锁来防止数据的写入,而这种锁,因为其并行度不够,冲突很多,经常会引起死锁。现在流行的 Row 模

式可以避免很多冲突甚至死锁问题,所以推荐默认使用 Row + RC(Read Committed)模式的隔离级别,可以很大程度上提高数据

库的读写并行度。 

2.多版本控制-MVCC 

多版本控制也叫作 MVCC,是指在数据库中,为了实现高并发的数据访问,对数据进行多版本处理,并通过事务的可见性来保证事

务能看到自己应该看到的数据版本。 

每一次对数据库的修改,都会在 Undo 日志中记录当前修改记录的事务号及修改前数据状态的存储地址(即 ROLL_PTR),以便在

必要的时候可以回滚到老的数据版本。例如,一个读事务查询到当前记录,而最新的事务还未提交,根据原子性,读事务看不到最

新数据,但可以去回滚段中找到老版本的数据,这样就生成了多个版本。

 

多版本控制很巧妙地将稀缺资源的独占互斥转换为并发,大大提高了数据库的吞吐量及读写性能。 

三、技术原理 

1.原子性背后的技术 

每一个写事务,都会修改 Buffer Pool,从而产生相应的 Redo 日志,这些日志信息会被记录到 ib_logfiles 文件中。因为 Redo 日志是

遵循 Write Ahead Log 的方式写的,所以事务是顺序被记录的。

 在 MySQL 中,任何 Buffer Pool 中的页被刷到磁盘之前,都会先写入到日志文件中,这样做有两方面的保证。如果 Buffer Pool 中的

这个页没有刷成功,此时数据库挂了,那在数据库再次启动之后,可以通过 Redo 日志将其恢复出来,以保证脏页写下去的数据不会

丢失,所以必须要保证 Redo 先写。 

因为 Buffer Pool 的空间是有限的,要载入新页时,需要从 LRU 链表中淘汰一些页,而这些页必须要刷盘之后,才可以重新使用,那

这时的刷盘,就需要保证对应的 LSN 的日志也要提前写到 ib_logfiles 中,如果没有写的话,恰巧这个事务又没有提交,数据库挂了,

在数据库启动之后,这个事务就没法回滚了。所以如果不写日志的话,这些数据对应的回滚日志可能就不存在,导致未提交的事务回

滚不了,从而不能保证原子性,所以原子性就是通过 WAL 来保证的。 

2.持久性背后的技术 

一个“提交”动作触发的操作有:binlog 落地、发送 binlog、存储引擎提交、flush_logs, check_point、事务提交标记等。这些都是数据

库保证其数据完整性、持久性的手段。 

通过原子性可以保证逻辑上的持久性,通过存储引擎的数据刷盘可以保证物理上的持久性。这个过程与前面提到的 Redo 日志、事务状

态、数据库恢复、参数 innodb_flush_log_at_trx_commit 有关,还与 binlog 有关。这里多提一句,在数据库恢复时,如果发现某事务的

状态为 Prepare,则会在 binlog 中找到对应的事务并将其在数据库中重新执行一遍,来保证数据库的持久性。 

3.隔离性背后的技术 

接下来看隔离性,InnoDB 支持的隔离性有 4 种,隔离性从低到高分别为:读未提交、读提交、可重复读、可串行化。(1)读未提交(RU,

Read Uncommitted)。它能读到一个事务的中间过程,违背了 ACID 特性,存在脏读的问题,所以基本不会用到,可以忽略。(2)读提交

(RC,Read Committed)。它表示如果其他事务已经提交,那么我们就可以看到,,这也是一种最普遍适用的级别。但由于一些历史原

因,可能 RC 在生产环境中用的并不多。(3)可重复读(RR,Repeatable Read),是目前被使用得最多的一种级别。其特点是有 Gap 锁、

目前还是默认的级别、在这种级别下会经常发生死锁、低并发等问题。(4)可串行化,这种实现方式,其实已经并不是多版本了,又回到了

单版本的状态,因为它所有的实现都是通过锁来实现的。 

注意: 

  • 在 RR 级别下,长时间未提交的事务会影响数据库的 PURGE 操作,从而影响数据库的性能,所以可以对这样的事务添加一个监控。

  • 可串行化是通过锁来实现的,所以实际上并不是多版本控制,它的特点也很明显:读锁、单版本控制、并发低。 

4.一致性背后的技术 

一致性可以归纳为数据的完整性。根据前文可知,数据的完整性是通过其他三个特性来保证的,包括原子性、隔离性、持久性,而这三个

特性,又是通过 Redo/Undo 来保证的,正所谓:合久必分,分久必合,三足鼎力,三分归晋,数据库也是,为了保证数据的完整性,提

出来三个特性,这三个特性又是由同一个技术来实现的,所以理解 Redo/Undo 才能理解数据库的本质。 

四、MVCC 实现原理 

MySQL InnoDB 存储引擎,实现的是基于多版本的并发控制协议——MVCC,而不是基于锁的并发控制。 

MVCC 最大的好处是读不加锁,读写不冲突。在读多写少的 OLTP(On-Line Transaction Processing)应用中,读写不冲突是非常重要的,

极大的提高了系统的并发性能,这也是为什么现阶段几乎所有的 RDBMS(Relational Database Management System),都支持 MVCC

的原因。 

posted @ 2022-08-15 13:31  北国浪子  阅读(220)  评论(0编辑  收藏  举报