作者信息：https://home.cnblogs.com/u/huangjiabobk

在K8S中，节点故障pod驱逐pod过程，时间怎么定义的？

在Kubernetes（K8S）中，节点故障导致Pod驱逐的过程是一个涉及多个组件和参数协同工作的复杂流程。这个过程的时间定义主要通过一系列参数来配置和确定。以下是该过程的详细解释以及时间定义的说明：

一、节点故障检测

节点控制器（Node Controller）检查间隔：
- node-monitor-period：这是节点控制器检查每个节点健康状态的间隔时间。默认值为5秒。即每5秒，节点控制器会尝试与集群中的每个节点进行通信，以确认其状态。
节点故障判断时间窗口：
- node-monitor-grace-period：这是节点控制器在判断节点为故障之前等待的时间窗口。默认值为40秒。如果在40秒内节点控制器没有收到节点的响应或确认消息，则节点控制器会将该节点标记为“NotReady”状态。

二、Pod驱逐过程

Pod保留时间：
- pod-eviction-timeout：当节点被标记为故障后，kubelet允许Pod在此故障节点上保留的时间。默认值为300秒（即5分钟）。这意味着，从节点被标记为故障开始，kubelet会等待5分钟，然后再开始驱逐该节点上的Pod。
驱逐过程：
- 一旦超过pod-eviction-timeout设置的时间，kubelet会开始将故障节点上的Pod驱逐到其他健康的节点上。这个过程包括终止Pod中的容器、清理相关资源等。

三、时间定义总结

总时间：从节点故障开始到Pod被完全驱逐到其他节点，整个过程的时间大致为node-monitor-grace-period + pod-eviction-timeout，即40秒 + 300秒 = 340秒（约5分40秒）。但需要注意的是，这个时间是从节点被标记为故障状态开始计算的，而节点被标记为故障状态之前还有node-monitor-period的等待时间（5秒）。
调整参数：在实际操作中，这些参数（如node-monitor-period、node-monitor-grace-period和pod-eviction-timeout）可以根据需要进行调整，以优化集群的故障恢复能力和资源利用率。

四、注意事项

Pod状态变化：在驱逐过程中，Pod的状态不会立即改变。在pod-eviction-timeout时间内，原本是Running的Pod状态将保持不变。当超过这个时间后，这些Pod的状态会变为Nodelost（对于DaemonSet）或Unknown（对于Deployment）。
优雅终止：在驱逐Pod之前，Kubernetes会尝试优雅地终止Pod中的容器，以确保应用程序有足够的时间完成正在进行的任务并释放资源。这通过发送SIGTERM信号给容器中的进程来实现，并等待一段配置的时间（terminationGracePeriodSeconds）让进程自行终止。

综上所述，我们可以清楚地了解到Kubernetes中节点故障导致Pod驱逐的过程及其时间定义。这些参数和流程确保了集群在节点故障时能够迅速恢复服务，并保持高可用性。

posted @ 2024-07-25 12:03 黄嘉波阅读(224) 评论(0) 收藏举报

刷新页面返回顶部

版权声明：原创作品，谢绝转载！否则将追究法律责任。--作者黄嘉波