触发OOM杀掉了mysql
中午收到反馈平台所有账号全部无法登录,运维就是苦逼,饭都没吃就跑来处理紧急故障,先自己测试了下确实无法登录进系统,登录服务器检查,发现mysql数据库挂掉了,定位到了原因就赶紧重启mysql吧,结果启动失败,
一直报端口地址被占用,ps aux netstat查看都没有mysql进程,使用lsof -i :3306终于看到了还存在一个连接,kill掉pid,然后再启动成功
处理好后一看手机微信里早有告警,哎,犯了个运维大错,手机应该时刻保持在手可以收到通信,在处理问题时应该先看下自己的告警信息,痛定思痛
本以为到这里没事了,后面运营说数据量不对,先是配合开发查找了半天,后面定位到应该是那个表无法定入的问题,查看数据库error.log,果然有报错
2017-05-04 14:38:10 42012 [ERROR] Got error 127 when reading table './apixxxxxx'
CHECK TABLE xxxx; 检查表
REPAIR TABLE xxxx; 修复表
再次检测下,ok,修复完毕
写这篇博客就是需要反思记录下,遇到问题千万不能紧张慌乱,日常一定要做好监控,并保持通信,首先查看监控可以确保第一时间找到问题,免得了东找西看浪费宝贵的恢复时间