监控导致负载异常升高的一个脚本
最近几天几台memcached服务器,这几台机器不只是缓存服务器,也是hadoop的,一到凌晨四点左右就监控到负载异常升高,我可不想四点左右爬起来看哪个进程导致的,写了一个简单脚本记录top输出值到一个文件中,第二天再查看。
脚本
#!/bin/bash # hexm@2017-01-10 # while true; do TIME=`date +%F-%H:%M:%S` echo $TIME >> /tmp/get_top.log top -n 1 -c -b | head -30 >> /tmp/get_top.log sleep 60 done
执行
nohup bash get_top.sh &
第二天接到的短信报警,04:54的报警
可以看到一台机器04:54负载偏高,打开记录的日志,看到是hadoop导致的。