【CI学习】Jenkins master和slave异常断开引起task 任务失败之故障深入分析

环境信息: 

      网络环境 :   同一个子网中

      jenkins master :     centos 7   jenkins 2.0  master 

      jenkins slave :  windows    slave 

故障现象: 

 任务的报错信息:     

 现象分析: 

     1,   master slave 异常断开

     2,  任务执行失败

     3,  tcp 长连接异常断开 

    4,   断开连接失败,  4 层问题  或者是 3层问题

 原因猜测:  

     1, master  负载过高  引起异常断开

     2, 网络质量差,引起异常断开

     3,  slave  进程假死 引起 异常断开  

 排查方法: 

    1, 网络质量监控  (秒级)

    2,  进程存活监控   

    3,  debug 日志打开   master  slave  

    4,    tcp 长连接抓包分析 

    5,  全链路 数据包 路由质量检测 监控 

短期解决办法:

1, 剔除 问题节点

长期解决方案:    

1,  查看debug 日志 

2,  windows slave  自动重连 master 

3,   task 设置 retry  功能

4,  windows slave  守护脚本的开发  

posted @ 2020-03-20 14:49  gtea  阅读(749)  评论(0编辑  收藏  举报