阿里云edas生产环境pod异常无法删除故障处理

edas上面的应用prod-rig-portal进行发布,发布后有一个pod不停重启,阿里云后台报错页面如下

 

 

 

 

 

 

 

在阿里云后台使用容器服务控制台

 

 

 在node节点进行查看

 

 

 此pod:prod-rig-portal-d7f604d8-eecd-41b8-89ca-20ed76053ec2-5cb6cft5lk一直处于Terminating状态

 

使用命令强制删除
[root@iZbp18swm1hqewjwhm0eh8Z .kube]# kubectl delete pods prod-rig-portal-d7f604d8-eecd-41b8-89ca-20ed76053ec2-5cb6cft5lk
pod "prod-rig-portal-d7f604d8-eecd-41b8-89ca-20ed76053ec2-5cb6cft5lk" deleted
[root@iZbp18swm1hqewjwhm0eh8Z .kube]# kubectl get pod|grep prod-rig-portal
prod-rig-portal-d7f604d8-eecd-41b8-89ca-20ed76053ec2-5cb6cpk7rr 0/1 Running 3 7m42s
prod-rig-portal-d7f604d8-eecd-41b8-89ca-20ed76053ec2-68578g2d47 1/1 Running 1 130d
prod-rig-portal-d7f604d8-eecd-41b8-89ca-20ed76053ec2-68578nxhpz 1/1 Running 1 130d
prod-rig-portal-d7f604d8-eecd-41b8-89ca-20ed76053ec2-68578rmddr 1/1 Running 1 130d

删除过后还是会出现
[root@iZbp18swm1hqewjwhm0eh8Z .kube]# kubectl get pod|grep prod-rig-portal
prod-rig-portal-d7f604d8-eecd-41b8-89ca-20ed76053ec2-5cb6cpk7rr 0/1 Running 3 7m43s
prod-rig-portal-d7f604d8-eecd-41b8-89ca-20ed76053ec2-68578g2d47 1/1 Running 1 130d
prod-rig-portal-d7f604d8-eecd-41b8-89ca-20ed76053ec2-68578nxhpz 1/1 Running 1 130d
prod-rig-portal-d7f604d8-eecd-41b8-89ca-20ed76053ec2-68578rmddr 1/1 Running 1 130d

查看deployment控制为正常

最后使用回滚的方法解决此问题
查看历史记录
[root@k8s .kube]# kubectl rollout history deployment prod-rig-portal-eecd-41b8-89ca-20ed76053ec2
deployment.extensions/prod-rig-portal-eecd-41b8-89ca-20ed76053ec2 
REVISION  CHANGE-CAUSE
1         <none>                  第1次发布的版本
2         <none>                  第2次发布的版本
3         <none>                  第3次发布的版本
4         <none>                  第4次发布的版本
5         <none>                  第5次发布的版本
6         <none>                  第6次发布的版本
7         <none>                  第7次发布的版本
10        <none>                  第8次发布的版本
11        <none>                  第9次发布的版本,默认不指定版本数回滚到的就是次版本,为上一版本
12        <none>                  第10次发布的版本,次为当前运行的版本

使用命令直接回滚到上一个版本解决此故障
kubectl rollout undo deployment prod-rig-portal-eecd-41b8-89ca-20ed76053ec2

最后检查恢复正常
[root@iZbp18swm1hqewjwhm0eh8Z ~]# kubectl get pods|grep prod-rig-portal
prod-rig-portal-d7f604d8-eecd-41b8-89ca-20ed76053ec2-68578g2d47   1/1     Running   1          130d
prod-rig-portal-d7f604d8-eecd-41b8-89ca-20ed76053ec2-68578nxhpz   1/1     Running   1          130d
prod-rig-portal-d7f604d8-eecd-41b8-89ca-20ed76053ec2-68578rmddr   1/1     Running   1          130d

 

 

#不指定版本号进行回滚方法
kubectl rollout undo deployment prod-rig-portal-eecd-41b8-89ca-20ed76053ec22

#指定版本号回滚到上一本方法1
[root@k8s .kube]#kubectl scale deployment prod-rig-portal-eecd-41b8-89ca-20ed76053ec22 --replicas=11

滚动更新可以根据image来确定发布的版本号是哪个版本    
kubectl rollout history deployment deployment控制器内存 --revision=指定发布的版本号
kubectl rollout history deployment prod-rig-portal-d7f604d8-eecd-41b8-89ca-20ed76053ec2 --revision=1
[root@iZbp18swm1hqewjwhm0eh8Z .kube]# kubectl rollout history deployment prod-rig-portal-d7f604d8-eecd-41b8-89ca-20ed76053ec2 --revision=1|grep Image
    Image:    registry-vpc.cn-hangzhou.aliyuncs.com/edas-serverless-user/1652870413157540_shared_repo:d7f604d8-eecd-41b8-89ca-20ed76053ec2_1576553394800

[root@iZbp18swm1hqewjwhm0eh8Z .kube]# kubectl rollout history deployment prod-rig-portal-d7f604d8-eecd-41b8-89ca-20ed76053ec2 --revision=2|grep Image
    Image:    registry-vpc.cn-hangzhou.aliyuncs.com/edas-serverless-user/1652870413157540_shared_repo:d7f604d8-eecd-41b8-89ca-20ed76053ec2_1576656853618
    
[root@iZbp18swm1hqewjwhm0eh8Z .kube]# kubectl rollout history deployment prod-rig-portal-d7f604d8-eecd-41b8-89ca-20ed76053ec2 --revision=3|grep Image
    Image:    registry-vpc.cn-hangzhou.aliyuncs.com/edas-serverless-user/1652870413157540_shared_repo:d7f604d8-eecd-41b8-89ca-20ed76053ec2_1577200301017
    
[root@iZbp18swm1hqewjwhm0eh8Z .kube]# kubectl rollout history deployment prod-rig-portal-d7f604d8-eecd-41b8-89ca-20ed76053ec2 --revision=4|grep Image
    Image:    registry-vpc.cn-hangzhou.aliyuncs.com/edas-serverless-user/1652870413157540_shared_repo:d7f604d8-eecd-41b8-89ca-20ed76053ec2_1578564659099
上面4条列子可以根据最后的1576553394800、15766568536181577200301017、1578564659099数字来判断哪个是最大的版本,
1的是1576553394800
2的是1576656853618
3的是1577200301017
4的是1578564659099
可以看到后面的发布数字是越来越大

 

posted @ 2023-01-05 17:56  YYQ-  阅读(141)  评论(0编辑  收藏  举报