shell脚本监控k8s集群job状态,若出现error通过触发阿里云的进程监控报警

#!/bin/bash
 
while [ 1 ]
    
do
  
   job_error_no=`kubectl get pod -n weifeng |grep -i "job"|grep -ci error`
    
    
  
   if [ $job_error_no -gt 0  ];then
      ps -fe|grep k8s_job_status_monitor|grep -v grep|awk '{print $2}'|xargs kill -9
      echo "k8s job running  is not stable " >> /tmp/k8s_job_error_no.log
  
   fi
   sleep 60
  
done

  

若k8s集群job状态出现error , 脚本自动kill 掉自己的 montior进程, 通过阿里云的云监控进程监控来触发报警  

阿里云云监控  进程监控 文档  https://www.cnblogs.com/weifeng1463/p/11591796.html

 

posted @   Oops!#  阅读(918)  评论(0编辑  收藏  举报
编辑推荐:
· AI与.NET技术实操系列:基于图像分类模型对图像进行分类
· go语言实现终端里的倒计时
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
阅读排行:
· 25岁的心里话
· 闲置电脑爆改个人服务器(超详细) #公网映射 #Vmware虚拟网络编辑器
· 零经验选手,Compose 一天开发一款小游戏!
· 因为Apifox不支持离线,我果断选择了Apipost!
· 通过 API 将Deepseek响应流式内容输出到前端
点击右上角即可分享
微信分享提示