【稳定性】【健壮性】【监控】紧急预案，限流，降级，熔断

稳定性：

　　以下属于稳定性考虑的事情：

　　为什么需要各个维度的指标呢？

　　因为其实问题出现的话，肯定是有连锁反应的，我们也有根据发现的表象立即分析出问题的根因，并且需要评估其影响，做最合理的应对方案。

事前：

　　掌控：必须要有对代码的掌控、对技术栈的深入了解，特别对于复杂的业务，在垃圾堆里面找bug或许需要很长时间。好的代码可以快速让你定位问题和想出解决方案

　　例子：数据库索引自动选择，导致数据库索引走错，业务抖动

　　护航工具：有一定的护航工具，对业务核心流程和状态有必要的控制权，是系统具有容错性的重要保障。

　　演练：压测。

　　限流降级：减少流量进入，是快速恢复的方案之一

业务降级：减少某类服务
系统降级：减少日志打印、定时任务

　　监控：最重要的一part；

不要成为监控疲劳，要精准

事中：

止血（降级、限流）
快恢

未知：资源问题：磁盘满了、删日志问题
已知：工程问题：回滚、紧急上线

事后：

恢复数据
复盘

应用维度：

业务单量

履约单量、物流订单量、作业单量（按类型分）；
单据状态分布
履约完成率（月、日）

机器指标：

服务器RT（响应时长）
服务器Load：
JVM FULL GC监控

业务监控：

数据库数据监控
日志数据监控（接口报错，消费异常）

数据库指标：

磁盘宽带、CPU、内存使用监控；
慢SQL监控；

MQ指标：

死信队列

HSF指标：

QPS\TPS

Sentinel：限流中间件

主机指标：

磁盘满：定位大文件：du -sh /home/admin/* |grep G

posted @ 2022-05-20 01:08 饭小胖阅读(94) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· 【线上问题排查】数据库死锁

· 【注册中心】【服务发现】【配置管理】【分布式一致性】基本发展史

· 系统稳定性概览

· 稳定性综述（精）

· 稳定性保障8个锦囊，建议收藏！

公告

昵称：饭小胖
园龄： 7年3个月
粉丝： 7
关注： 1

+加关注

2025年3月

日

一

二

三

四

五

六

随笔分类

随笔档案

阅读排行榜

评论排行榜

1. git最佳实践之feature和hotfix分支(1)

饭小胖