07 2022 档案
摘要:可以获取pod下面的容器的restart count参数,传入容器变量,容器里写个脚本来读值判断 写个 controller ,监听 restartcount 最后实操 删除 haidene命名空间中重启超过100的pod $ cat /opt/tools/pod_auto_delete.sh #!
阅读全文
摘要:背景 发现3主集群的k8s,其中有一台负载特别高,top看的话也没有发现使用特别高的进程,最后打算在使用低峰期重启这台故障节点,(因为是3主高可用,挂掉一台也不影响集群使用) 问题 重启服务器后发现负载确实降低,但是发现etcd起不来了,导致 apiserver也没起来,kubelet正常 看了下e
阅读全文