关于没有熔断降级导致服务重启问题

文章主目录

场景
总结
反思当时
经验总结

场景

1.k8s微服务触发重启

容器配置的健康检查采用actuator

curl 127.0.0.1:8080/actuator/health

2.容器重启钩子回调

curl -X POST http://127.0.0.1:8080/actuator/shutdown

最终原因是因为调用第三方服务，超时设置3秒，重试3次，三方服务挂起导致tomcat连接池占满,健康检查请求进不来

总结

反思当时

当时是用户反馈才发现

1.首先触发重启需要进行告警

2.关于监测还需要通过error日志激增来进行告警，其实日志也有感知

3.调用其他服务还是需要熔断降级，增对高并发场景，我们设置超时时间就算设置1秒，也会导致请求挂起一秒，

上熔断降级，短期内大量异常，直接熔断,过时间再少量尝试，正常了再放开

经验总结

当出现大面积超时排查步骤

1.结合jvm的线程来看当前活跃线程数量,主要看几种线程状态的数量比如runable。

2.通过日志量看error是否激增，差异是啥

3.有链路追踪，可以结合链路追踪查看是否有大量耗时接口，和平均响应时间拉长,以及快速定位接口

4.结合数据库挂起的慢查询

线程状态误区

1.本质问题是线程占满了导致,后续服务恢复看线程数量饱和度还是较高如下图

2.原因是这个服务是个并发较高的接口线程池有几个核心参数核心线程数量最大线程数量线程队列回收时间

3.其实这里面大量的线程是TIme_Waiting的线程,如果是paring的非runable过程中等待的是正常的

还需要结合队列中的任务数量

1.正常的

这种表示非核心线程在poll的时候尝试拿任务,指定时间内拿不到就表示空闲，触发回收(可以研究一下这里源码)

2.挂起的

业务挂起的都能看出来run挂起的

posted @ 2024-05-19 18:25 意犹未尽阅读(29) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

公告

昵称：意犹未尽
园龄： 9年8个月
粉丝： 64
关注： 6

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

随笔档案

文章分类

阅读排行榜

评论排行榜

推荐排行榜

最新评论

1. Re:flowable-流程中心设计之审核按钮扩展(十一)
你好，针对扩展按钮这块我能加您好友进一步请教细节吗
--青椒肉丝之神
2. Re:flowable-流程中心设计之中间事件(六)
是没有开启异步任务配置，引擎配置好久可以了。
--NickXuu
3. Re:flowable-流程中心设计之中间事件(六)
<bpmn2:intermediateCatchEvent id="Event_0di5pgw"> bpmn2:extensionElements <flowable:executionListene...
--NickXuu
4. Re:flowable-流程中心设计之自定义sql(十)
博主，代码有吗？我看好多flowable文章都是放了你的路径
--中国制造
5. Re:flowable-流程中心设计之会签(二)
有没有gitee/hub或者源代码呢？
--蒲公英的天空