Etcd集群换机导致etcd集群不可用
背景:
因为工作中有nj地域需要下线,需要我所有地域的机器包括vip全部换成其他临近地域
问题:
集群中的etcd正常替换,当时保持的是平移,由于历史原因,之前的同学上线都是手动变更,没有发起上线,导致使用的之前的版本,导致etcd只能读,不能写入,而且etcd监控查询是不健康的状态
排查:
检查了etcd的进程,是正常的
检查了端口,是正常的
查看日志的时候,看报错是超出了配置文件的参数,最开始是0,表示默认,但是之前出过case集群dbsize有20G,导致集群的变更出现延迟,集群中list等操作延迟非常高
处理方法:
找到集群的主节点和从节点,首先更改从节点的配置更改到8G,然后发起重启,最后重启主节点,(注:查阅资料etcd集群的不超过8G性能最佳)