小的的的小的的

 

2017.2.6Redis连接问题排查

现象:早8:15起开始收到redis主从不停切换的报警短信,某系统连接流控redis报超时。

排查:1、查看zabbix,看流控系统的redis服务器是否正常——正常;

   2、查看redis监控,redis服务可用,连接数也正常;

     3、查看应用实时日志,从流控jboss到流控redis连接也报超时;

    

    4、查看网络问题,从流控和其他系统的jboss Ping流控的redis存在问题:ping不同或者部分包丢失或者时间过长

    

    

    5、最终确定原因是由于交换机故障,导致此交换机下的虚机都存在问题,经过一个晚上的维修,还是没有成功。在此交换机上的虚机均需要迁移。

    流控有4组redis虚机+2台jboss虚机+1台mysql虚机在这台交换机下,需要迁移。由于jboss和mysql都存在集群中,可以暂时不迁移。

    4组Redis需要进行迁移,由于迁移过程中需要停掉redis服务,所以8台Redis不可以同时迁移(每个分片有1主1从),将其中4台从机进行迁移。

    6、迁移过程:1)停应用;2)redis从机关机迁移,迁移时间与redis磁盘大小有关,因为我这4台都是0,所以速度很快。

    7、迁移过程中出现的问题:在4台从机迁移过程中,各应用系统异常量瞬间暴增,怀疑是在从机闪断过程中,各应用系统请求失败(写主机,读主从随机)。《注:主从切换 会很快切过去,但错误会一直到另外一台恢复才会结束。因为我们redis策略默认是读随机》

      

 

posted on 2017-02-06 10:31  小的的的小的的  阅读(690)  评论(0编辑  收藏  举报

导航