【CI学习】Jenkins master和slave异常断开引起task 任务失败之故障深入分析
环境信息:
网络环境 : 同一个子网中
jenkins master : centos 7 jenkins 2.0 master
jenkins slave : windows slave
故障现象:
任务的报错信息:
现象分析:
1, master slave 异常断开
2, 任务执行失败
3, tcp 长连接异常断开
4, 断开连接失败, 4 层问题 或者是 3层问题
原因猜测:
1, master 负载过高 引起异常断开
2, 网络质量差,引起异常断开
3, slave 进程假死 引起 异常断开
排查方法:
1, 网络质量监控 (秒级)
2, 进程存活监控
3, debug 日志打开 master slave
4, tcp 长连接抓包分析
5, 全链路 数据包 路由质量检测 监控
短期解决办法:
1, 剔除 问题节点
长期解决方案:
1, 查看debug 日志
2, windows slave 自动重连 master
3, task 设置 retry 功能
4, windows slave 守护脚本的开发
作者:gtea
博客地址:https://www.cnblogs.com/gtea