一次问题处理后的处理流程总结
缘由:
接到电话nagios监控报警,api、url访问不ok。
处理后回顾了一下自己的处理流程并延伸了下思绪,以前所处理的游戏问题及网站打不开、打开慢的情况处理、排查的思路、步骤都是相通的。
现将思绪整理下。
PS:-----> ---<-- 起初应该就是访问不ok的问题才有的后续步骤
- 需要确实是个别现象问题,还是多数问题
尽可能重现现象或模拟类似的操作情况发现有问题。
1.第一个使用的一般都是ping
- ping 服务器ip 来确定是否线路
1) ok, 表示线路ok,那么问题就有可能是服务宕机或者负载过高
2) 有丢包,表示带宽、线路不稳定(本次原因就是这个,服务异常把带宽占满)
3) 不通,有几种情况 服务器、负载、机柜、机房,一般都是负载过高,或者服务器宕机,后2者的情况没遇到过。
2.登录环境查看
- 登录服务确认查看业务情况
ps 、 telnet、ss 、netstat 、lsof 等来确认服务状态
linux 、selinux 的状态查看
ping 测试服务器间通信
curl、wget 来确认url
3.流量、带宽情况
- 流量、带宽查看(这个要不要放在第2的位置稍微纠结了一下)
这个可以通过监控工具查看。 ( 我们使用的监控工具是zabbix + nagios )
4. 宽带问题
以前遇到最多的还是长城宽带、铁通用户反馈的问题较多。
网络监控平台可以使用smokeping
5. 架构问题
这个需要看具体业务,看网络拓扑、看业务架构来确定是否有设计不合理的地方
6. 数据库问题
数据库的优化、慢查询日志查看(这个很重要慢查询记得开启)
7. 存储的问题
有些素材、图片之类的有些事放存储内地,所以给存储也加上了。
8. 未知原因
仅遇到过一次,重启服务器解决的。。。