K8S集群POD数量达到上限导致无法升级

客户问题:
因为部分节点 pod 数量达到上限,无法通过前置检查

问题原因:
集群升级需要在节点上运行一个pod,用于集群升级。前置检查中也需要在节点上运行一个pod,进行节点检查。所以节点的pod限额被用光会导致无法升级。这是一个Corner case

临时方案:
对集群进行扩容,将pod配额用光的节点上的pod,驱逐一到两个到新的节点上,从而为集群升级和前置检查腾出空间,完成升级

产品化方案:
为每个集群都创建一个daemon set,在每个节点上常驻一个pod,后续前置检查和集群升级都通过这个常驻pod完成。

posted @ 2020-06-10 20:11  梧桐花落  阅读(2599)  评论(0编辑  收藏  举报