2017.2.6Redis连接问题排查
现象:早8:15起开始收到redis主从不停切换的报警短信,某系统连接流控redis报超时。
排查:1、查看zabbix,看流控系统的redis服务器是否正常——正常;
2、查看redis监控,redis服务可用,连接数也正常;
3、查看应用实时日志,从流控jboss到流控redis连接也报超时;
4、查看网络问题,从流控和其他系统的jboss Ping流控的redis存在问题:ping不同或者部分包丢失或者时间过长
5、最终确定原因是由于交换机故障,导致此交换机下的虚机都存在问题,经过一个晚上的维修,还是没有成功。在此交换机上的虚机均需要迁移。
流控有4组redis虚机+2台jboss虚机+1台mysql虚机在这台交换机下,需要迁移。由于jboss和mysql都存在集群中,可以暂时不迁移。
4组Redis需要进行迁移,由于迁移过程中需要停掉redis服务,所以8台Redis不可以同时迁移(每个分片有1主1从),将其中4台从机进行迁移。
6、迁移过程:1)停应用;2)redis从机关机迁移,迁移时间与redis磁盘大小有关,因为我这4台都是0,所以速度很快。
7、迁移过程中出现的问题:在4台从机迁移过程中,各应用系统异常量瞬间暴增,怀疑是在从机闪断过程中,各应用系统请求失败(写主机,读主从随机)。《注:主从切换 会很快切过去,但错误会一直到另外一台恢复才会结束。因为我们redis策略默认是读随机》