k8s Node-problem-detector
Kubernetes集群可能存在的问题
基础架构守护程序问题: NTP服务关闭
硬件问题:CPU,内存或磁盘损坏 内核问题:内核死锁,文件系统损坏
容器运行时问题:运行时守护程序无响应
当Kubernetes中节点发生上述问题,在整个集群中,k8s服务组件并不会感知以上问题,就会导致pod仍会调度至问题节点。
Node-problem-detector
为了解决这个问题,社区引入了守护进程node-problem-detector,从各个守护进程收集节点问题,并使它们对上游层可见。
Kubernetes节点诊断的工具,可以将节点的异常,例如:
Runtime无响应;
Linux kernel无响应;
网络异常 ;
文件描述符异常;
硬件问题如cpu,内存或者磁盘故障。
故障分类
问题汇报手段
Node-problem-detector通过设置NodeCondition或者创建event对象来汇报问题。
NodeCondition: 针对永久性故障,会通过NodeCondition来改变节点状态
Event:临时故障通过event来提醒相关对象,比如通过当前节点运行的所有pod。
时来天地皆同力,运去英雄不自由
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· Docker 太简单,K8s 太复杂?w7panel 让容器管理更轻松!
2018-11-01 邮件服务器方案
2017-11-01 unarchive模块
2017-11-01 synchronize模块
2017-11-01 ansible 的user模块