Redis故障案例(一)-特定key批量丢失

作者：RogerZhuo

来源：DBACoder

TroubleShooting-排障是DBA一项重要技能，通过故障表现的症状，先让业务高速恢复止损，同一时候分析故障的根因(rootCause),给出解决方式并从根本上修复故障。最后总结从产品或流程上怎么规避同类型故障再次发生。

DBA排障非常像医生治病、刑警破案。

医生通过了解病人病情症状(故障症状），先让病人病情缓解(服务止损）相似止痛，同一时候分析病灶（故障根因），给出可行的治疗方案（故障解决方式），病人全然恢复；最后给出医疗建议怎样预防病情或避免恶化(故障规避）；当然还有现多的相似急救(紧急故障-7位数级损失）、会诊、不治、AI医疗(AI故障根因分析）、医疗事故(背锅)；事实上非常多相通之处。

刑警通过真凶（故障根因）留下的犯罪现场(故障症状）。根据罗卡定律，各种技术分析和寻找证据，终于找出真凶和证据。（段子非常多。先回到主题）

在Redis早期的运维过程中。也遇过不少Redis故障。现总结当中几个有意思的案例，希望对刚開始用Redis的DBA同学有所帮助。

故障因与业务、故障场景结合较密切(脱敏)。笔者尽量提炼成技术和还原现场。故障系列文章包含下面几部分：

故障背景：主要交待技术和故障背景[可选]。

故障描写叙述：故障的简单描写叙述、根本原因和影响。

故障监控告警：故障相关的监控告警信息；

故障分析：文章核心提供相似故障的分析思路、和技术点；

故障阶段性总结：文章核心总结相似故障的通用性预防；

本文是Redis故障案例(一)关于一次Redis特定key丢失排查分析。

1 故障背景

A业务有一个3分片的Redis Cluster缓存集群,会定期生成数据写入Redis; 某一天。A业务的研发project师(下文简称RD)突然找到DBA,非常激动地说：“我们Redis集群突然掉非常多key…” ,然后故事就開始了….

RD: “我们Redis集群中，以“t_list:”前缀的90000多key今早发现都掉了，其它key还在，是不是DBA有清理操作啊？”
DBA: “没有维护性操作(一脸懵B和无辜),先止损，把Key从Primary store中导入Redis；”
RD: “已经从MySQL把key导入到Redis，如今业务功能恢复。影响非常小。

但请帮忙追查原因。“
DBA: “这部分key确认近期一次还在是什么时候?

然后最早发现丢失是在什么时候？” 备注:DBA開始和当事人了解案发时间，为排查问题提供根据。
RD: “昨晚20:30前key肯定还在，最早发现key不见是今早9:20同事发现新測试功能有异常” 备注：灰度功能
DBA: ”好的，我先分析一下原因，有结果了通知你；定位问题前，你也关注一下服务。避免问题二次发生”。

然后RD就下楼了，DBA扣上他的几十元买来的boss耳机。開始自言自语Troubleshooting.

2 故障描写叙述

因RD1同学为重写t_list的90000多个KEY, 通过keys t_list*命令获取并删除。但未及时把key新内容重到redis中；使得RD2同学以为数据灵异丢失。

但由于是灰度功能使用数据。服务影响范围较小。

3 故障告警

1 业务告警缺失。见故障总结
2 Redis側无法监控此类告警

4 故障分析

通过RD提供的线索：

特定t_list:前缀90000个List元素丢失；
数据丢失时间范围前日20：30~9:20之间（案发时间段。分析各种监控范围）。

通过故障症状初步分析，故障可能的根因：

执行了flushall/flushdb命令删除所有key,其它key是后来写入的。造成了仅仅丢失t_list的假象
这90000个List元素因运行LPOP/RPOP，导致key被删除的现象;(List中元素被所有pop完后，list相当于被删除了）
这部分key因设置了TTL。在此期间内所有过期，被redis自己主动删除;
这部分key因LRU淘汰。被redis所有驱赶淘汰；
程序BUG或人为删除导致。

每一个可能故障根因排查分析：

排除flushall/flushdb导致。因此集群两个命令是被rename了，同一时候观察集群监控dbsize为了跌为0的区段； info Commandstats中没cmdstat_flushdb、cmdstat_flushall输出都可确认，不是flush造成的。
排队List pop操作导致的；通过分析案发时间段内的监控图，并未发现cmdstat_rpop和cmdstat_lpop输出；
排除过期删除导致；分析监控，近期24小时expired_keys监控指标值基本为0
排除LRU淘汰导致；本集群实例未设置淘汰，maxmemory-policy为noeviction；分析监控，近期24小时evicted_keys监控指标值都是0。
确认是程序BUG或人为删除导致；最后定位是RD1同学。为重写这部分key。通过脚本keys t_list:*获取，并通过del命令删除。具体分析步骤例如以下：