kubernetes-服务器重启后集群检查

kubernetes-服务器重启后集群检查

搭建k8s集群的服务器因机房断电原因挂掉。以下是恢复后的常规检查

检查k8s的master组件服务

 systemctl status kube-apiserver.service kube-controller-manager.service kube-scheduler.service

检查k8s的node组件服务

systemctl status kubelet.service kube-proxy.service

检查calico、coredns、metrics的pod状态

# kubectl get pods -n kube-system -owide

检查集群节点

# kubectl get nodes

常见问题:

  1. pod无法解析svc
    报错如图

pod中无法解析“maorong-gateway”这个svc

排查:

  1. 查看svc的网络
# kubectl get svc


ip是:10.96.0.1
2. 在node上对查出的ip进行网络测试

# telnet 10.96.0.1 443

# telnet 10.96.0.10 53


如图,53端口是dns解析的端口,该端口无法连通。
3. 查看coredns的pod是否正常

# kubectl get pods -n kube-system 

# kubectl get deploy -n kube-system -owide

  1. 恢复 coredns服务
    coredns获取镜像失败,我们修改正确镜像路径:
# kubectl edit deploy -n kube-system coredns

再次检查coredns:

# kubectl get pods -n kube-system -owide

  1. 登录node节点,进行验证53端口:

  2. 将报错pod进行重启

# kubectl rollout restart deploy -n haian-sit vchain-scf-admin-front

posted @ 2024-03-12 09:56  邹姣姣  阅读(32)  评论(0编辑  收藏  举报