网站故障排查
最近zabbix监控公司一个网站经常报警,状态码000,监控的是个静态页面,
1.首先看返回的头信息,发现cache-control:no cache
有cdn,看配置因为业务需要没有配置缓存,导致每次都回源
2.命令测试
curl -s --connect-timeout 3 -m 5 -o /dev/null -w %{http_code} http://*.*.com
发现多次测试其中会有响应慢的一次,将超时时间增加,000错误减少,从监控机到cdn到源站这个路线过程中是有问题的
3.根据监控机ip过滤查看访问记录,发现当超时时,源站并没有写日志,也就是访问并没有到源站,cdn还没回到源站
4.分析cdn日志,根据状态码,分析出很多监控机到cdn节点的499状态码日志记录,通过curl访问,说明访问到了cdn节点,而cdn节点回源过程过慢导致客户端超时,因为curl测试限定了超时时间