问题处理流程

 
背景
  这里的问题主要是指那些一直运行正常,因为未知原因或突然的流量增大,导致系统异常。
 
步骤
  1. 快速恢复(快速恢复系统正常运行,避免产生更大的损失)
    1. 重启应用服务器
    2. 重启中间件
    3. 下线问题机器
    4. 下线问题中间件
    5. 熔断、下线第三方服务
  2. 保留现场
    1. 保留其中一台故障节点不重启,移除这台机器的流量(目的是保留内存数据和环境数据)
    2. 监控系统:记录出现问题时段的机器参数、网络/磁盘IO状态、CPU/内存使用率、JVM数据、慢查询数据、日志数据、告警数据等
  3. 解决复盘
    1. 分析监控系统发现问题
    2. 分析日志发现问题
    3. 分析现场保留的节点信息:如线程池数据、内存、CPU数据、JVM数据等(及时导出数据,存档)

posted @ 2020-11-21 14:50    阅读(241)  评论(0编辑  收藏  举报