【CI学习】Jenkins master和slave异常断开引起task 任务失败之故障深入分析
环境信息:
网络环境 : 同一个子网中
jenkins master : centos 7 jenkins 2.0 master
jenkins slave : windows slave
故障现象:
任务的报错信息:
现象分析:
1, master slave 异常断开
2, 任务执行失败
3, tcp 长连接异常断开
4, 断开连接失败, 4 层问题 或者是 3层问题
原因猜测:
1, master 负载过高 引起异常断开
2, 网络质量差,引起异常断开
3, slave 进程假死 引起 异常断开
排查方法:
1, 网络质量监控 (秒级)
2, 进程存活监控
3, debug 日志打开 master slave
4, tcp 长连接抓包分析
5, 全链路 数据包 路由质量检测 监控
短期解决办法:
1, 剔除 问题节点
长期解决方案:
1, 查看debug 日志
2, windows slave 自动重连 master
3, task 设置 retry 功能
4, windows slave 守护脚本的开发
作者:gtea
博客地址:https://www.cnblogs.com/gtea
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· AI与.NET技术实操系列:基于图像分类模型对图像进行分类
· go语言实现终端里的倒计时
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 25岁的心里话
· 闲置电脑爆改个人服务器(超详细) #公网映射 #Vmware虚拟网络编辑器
· 基于 Docker 搭建 FRP 内网穿透开源项目(很简单哒)
· 零经验选手,Compose 一天开发一款小游戏!
· 一起来玩mcp_server_sqlite,让AI帮你做增删改查!!