缓存雪崩与缓存穿透

今天来分享一下Redis几道常见的面试题：

如何解决缓存雪崩？
如何解决缓存穿透？
如何保证缓存与数据库双写时一致的问题？

一、缓存雪崩

1.1 什么是缓存雪崩？

首先我们先来回答一下我们为什么要用缓存(Redis)：

1、提高性能能：缓存查询是纯内存访问，而硬盘是磁盘访问，因此缓存查询速度比数据库查询速度快

2、提高并发能力：缓存分组了部分请求，支持更高的并发

现在有个问题，如果我们的缓存挂掉了，这意味着我们的全部请求都跑去数据库了。

我们都知道Redis不可能把所有的数据都缓存起来(内存昂贵且有限)，所以Redis需要对数据设置过期时间，将已经过期的键值对删除，它采用的是惰性删除+定期删除两种策略对过期键删除。

如果缓存数据设置的过期时间是相同的，并且Redis恰好将这部分数据全部删光了。这就会导致在这段时间内，这些缓存同时失效，全部请求到数据库中。

这就是缓存雪崩：

Redis挂掉了，请求全部走数据库。
对缓存数据设置相同的过期时间，导致某段时间内缓存失效，请求全部走数据库。

缓存雪崩如果发生了，很可能就把我们的数据库搞垮，导致整个服务瘫痪！

1.2 如何解决缓存雪崩？

对于“对缓存数据设置相同的过期时间，导致某段时间内缓存失效，请求全部走数据库。”这种情况，非常好解决：

解决方法：在缓存的时候给过期时间加上一个随机值，这样就会大幅度的减少缓存在同一时间过期。

对于“Redis挂掉了，请求全部走数据库”这种情况，我们可以有以下的思路：

事发前：实现Redis的高可用(主从架构+Sentinel 或者Redis Cluster)，尽量避免Redis挂掉这种情况发生。
事发中：万一Redis真的挂了，我们可以设置本地缓存(ehcache)+限流(hystrix)，尽量避免我们的数据库被干掉(起码能保证我们的服务还是能正常工作的)
事发后：redis持久化，重启后自动从磁盘上加载数据，快速恢复缓存数据。

二、缓存穿透

2.1什么是缓存穿透

比如，我们有一张数据库表，ID都是从1开始的(正数)，但是可能有黑客想把我的数据库搞垮，每次请求的ID都是负数。这会导致我的缓存就没用了，请求全部都找数据库去了，但数据库也没有这个值啊，所以每次都返回空对象出去。

缓存穿透是指查询一个一定不存在的数据。由于缓存不命中，并且出于容错考虑，如果从数据库查不到数据则不写入缓存，这将导致这个不存在的数据每次请求都要到数据库去查询，失去了缓存的意义。

这就是缓存穿透：

请求的数据在缓存大量不命中，导致请求走数据库。

缓存穿透如果发生了，也可能把我们的数据库搞垮，导致整个服务瘫痪！

2.1如何解决缓存穿透？

解决缓存穿透也有两种方案：

由于请求的参数是不合法的(每次都请求不存在的参数)，于是我们可以使用布隆过滤器(BloomFilter)或者压缩filter提前拦截，不合法就不让这个请求到数据库层！
当我们从数据库找不到的时候，我们也将这个空对象设置到缓存里边去。下次再请求的时候，就可以从缓存里边获取了。
这种情况我们一般会将空对象设置一个较短的过期时间。

三、缓存与数据库双写一致

3.1对于读操作，流程是这样的

上面讲缓存穿透的时候也提到了：如果从数据库查不到数据则不写入缓存。

一般我们对读操作的时候有这么一个固定的套路：

如果我们的数据在缓存里边有，那么就直接取缓存的。
如果缓存里没有我们想要的数据，我们会先去查询数据库，然后将数据库查出来的数据写到缓存中。
最后将数据返回给请求

3.2什么是缓存与数据库双写一致问题？

如果仅仅查询的话，缓存的数据和数据库的数据是没问题的。但是，当我们要更新时候呢？各种情况很可能就造成数据库和缓存的数据不一致了。

这里不一致指的是：数据库的数据跟缓存的数据不一致

从理论上说，只要我们设置了键的过期时间，我们就能保证缓存和数据库的数据最终是一致的。因为只要缓存数据过期了，就会被删除。随后读的时候，因为缓存里没有，就可以查数据库的数据，然后将数据库查出来的数据写入到缓存中。

除了设置过期时间，我们还需要做更多的措施来尽量避免数据库与缓存处于不一致的情况发生。

3.3对于更新操作

一般来说，执行更新操作时，我们会有两种选择：

先操作数据库，再操作缓存
先操作缓存，再操作数据库

首先，要明确的是，无论我们选择哪个，我们都希望这两个操作要么同时成功，要么同时失败。所以，这会演变成一个分布式事务的问题。

所以，如果原子性被破坏了，可能会有以下的情况：

操作数据库成功了，操作缓存失败了。
操作缓存成功了，操作数据库失败了。

如果第一步已经失败了，我们直接返回Exception出去就好了，第二步根本不会执行。

下面我们具体来分析一下吧。

3.3.1操作缓存

操作缓存也有两种方案：

更新缓存
删除缓存

一般我们都是采取删除缓存缓存策略的，原因如下：

高并发环境下，无论是先操作数据库还是后操作数据库而言，如果加上更新缓存，那就更加容易导致数据库与缓存数据不一致问题。(删除缓存直接和简单很多)
如果每次更新了数据库，都要更新缓存【这里指的是频繁更新的场景，这会耗费一定的性能】，倒不如直接删除掉。等再次读取时，缓存里没有，那我到数据库找，在数据库找到再写到缓存里边(体现懒加载)

基于这两点，对于缓存在更新时而言，都是建议执行删除操作！

3.3.2先更新数据库，再删除缓存

正常的情况是这样的：

先操作数据库，成功；
再删除缓存，也成功；

如果原子性被破坏了：

第一步成功(操作数据库)，第二步失败(删除缓存)，会导致数据库里是新数据，而缓存里是旧数据。
如果第一步(操作数据库)就失败了，我们可以直接返回错误(Exception)，不会出现数据不一致。

如果在高并发的场景下，出现数据库与缓存数据不一致的概率特别低，也不是没有：

缓存刚好失效
线程A查询数据库，得一个旧值
线程B将新值写入数据库
线程B删除缓存
线程A将查到的旧值写入缓存

要达成上述情况，还是说一句概率特别低：

因为这个条件需要发生在读缓存时缓存失效，而且并发着有一个写操作。而实际上数据库的写操作会比读操作慢得多，而且还要锁表，而读操作必需在写操作前进入数据库操作，而又要晚于写操作更新缓存，所有的这些条件都具备的概率基本并不大。

对于这种策略，其实是一种设计模式：Cache Aside Pattern

删除缓存失败的解决思路：

将需要删除的key发送到消息队列中
自己消费消息，获得需要删除的key
不断重试删除操作，直到成功

3.3.3先删除缓存，再更新数据库

正常情况是这样的：

先删除缓存，成功；
再更新数据库，也成功；

如果原子性被破坏了：

第一步成功(删除缓存)，第二步失败(更新数据库)，数据库和缓存的数据还是一致的。
如果第一步(删除缓存)就失败了，我们可以直接返回错误(Exception)，数据库和缓存的数据还是一致的。

看起来是很美好，但是我们在并发场景下分析一下，就知道还是有问题的了：

线程A删除了缓存
线程B查询，发现缓存已不存在
线程B去数据库查询得到旧值
线程B将旧值写入缓存
线程A将新值写入数据库

所以也会导致数据库和缓存不一致的问题。

并发下解决数据库与缓存不一致的思路：

将删除缓存、修改数据库、读取缓存等的操作积压到队列里边，实现串行化。

3.4对比两种策略

我们可以发现，两种策略各自有优缺点：

先删除缓存，再更新数据库
- 在高并发下表现不如意，在原子性被破坏时表现优异
先更新数据库，再删除缓存(Cache Aside Pattern设计模式)
- 在高并发下表现优异，在原子性被破坏时表现不如意

在分布式系统中，缓存和数据库同时存在时，如果有写操作的时候，先操作数据库还是先操作缓存呢？先思考一下，可能会存在哪些问题，再往下看。下面我分几种方案阐述。

缓存维护方案一

假设有一写（线程A）一读（线程B）操作，先操作缓存，在操作数据库。，如下流程图所示：

1）线程A发起一个写操作，第一步del cache

2）线程A第二步写入新数据到DB

3）线程B发起一个读操作，cache miss，

4）线程B从DB获取最新数据

5）请求B同时set cache

这样看，没啥问题。我们再看第二个流程图，如下：

1）线程A发起一个写操作，第一步del cache

2）此时线程B发起一个读操作，cache miss

3）线程B继续读DB，读出来一个老数据

4）然后老数据入cache

5）线程A写入了最新的数据

OK，酱紫，就有问题了吧，老数据入到缓存了，每次读都是老数据啦，缓存与数据与数据库数据不一致。

缓存维护方案二

双写操作，先操作缓存，在操作数据库。

1）线程A发起一个写操作，第一步set cache

2）线程A第二步写入新数据到DB

3）线程B发起一个写操作，set cache，

4）线程B第二步写入新数据到DB

这样看，也没啥问题。，但是有时候可能事与愿违，我们再看第二个流程图，如下:

1）线程A发起一个写操作，第一步set cache

2）线程B发起一个写操作，第一步setcache

3）线程B写入数据库到DB

4）线程A写入数据库到DB

执行完后，缓存保存的是B操作后的数据，数据库是A操作后的数据，缓存和数据库数据不一致。

缓存维护方案三

一写（线程A）一读（线程B）操作，先操作数据库，再操作缓存。

1）线程A发起一个写操作，第一步write DB

2）线程A第二步del cache

3）线程B发起一个读操作，cache miss

4）线程B从DB获取最新数据

5）线程B同时set cache

这种方案没有明显的并发问题，但是有可能步骤二删除缓存失败，虽然概率比较小，优于方案一和方案二，平时工作中也是使用方案三。

综上对比，我们一般采用方案三，但是有没有完美全解决方案三的弊端的方法呢？

缓存维护方案四

这个是方案三的改进方案，都是先操作数据库再操作缓存，我们来看一下流程图：

通过数据库的binlog来异步淘汰key，以mysql为例可以使用阿里的canal将binlog日志采集发送到MQ队列里面，然后通过ACK机制确认处理 这条更新消息，删除缓存，保证数据缓存一致性。

但是呢还有个问题，如果是主从数据库呢？

缓存维护方案五

主从DB问题：因为主从DB同步存在同时延时时间如果删除缓存之后，数据同步到备库之前已经有请求过来时，会从备库中读到脏数据，如何解决呢？解决方案如下流程图：

缓存维护总结

综上所述，在分布式系统中，缓存和数据库同时存在时，如果有写操作的时候，先操作数据库，再操作缓存。如下：

（1）读取缓存中是否有相关数据

（2）如果缓存中有相关数据value，则返回

（3）如果缓存中没有相关数据，则从数据库读取相关数据放入缓存中key->value，再返回

（4）如果有更新数据，则先更新数据，再删除缓存

（5）为了保证第四步删除缓存成功，使用binlog异步删除

（6）如果是主从数据库，binglog取自于从库

（7）如果是一主多从，每个从库都要采集binlog，然后消费端收到最后一台binlog数据才删除缓存

链接：https://juejin.im/post/5d4a3196f265da03ab423727

posted @ 2019-08-06 11:25 川流不息& 阅读(136) 评论(0) 收藏举报

刷新页面返回顶部