线上问题排查思路

1.问题确认与收集

问题描述：明确问题的具体表现，比如系统慢，服务不可用，数据异常等
影响范围：确定问题影响的用户群体，功能模块或服务
时间点：确定问题发生的事件，是持续性还是间歇性
环境信息: 收集环境信息，服务器配置，jdk版本，应用版本等

2.快速响应

评估严重程度：根据影响范围和业务的重要性评估问题严重程度
应急措施：考虑紧急措施，如服务降级，流量控制回滚版本

3.日志分析

应用日志：检查应用日志的错误信息，异常堆栈等
系统日志：查看操作系统日志如linux 的 /var/log/messages
中间件日志：检查数据，缓存，消息队列等中间件的日志

4. 监控数据分析

系统监控：查看cpu ，内存，磁盘 IO,网络等系统资源使用情况。
jvm 监控：分析 GC日志，堆内存使用，线程状态等
应用性能监控：检查请求响应事件，吞吐量，错误率等指标

5. 网络分析

网络连接：检查网络连接状态，如防火墙设置，端口开放情况。
网络性能：分析网络延迟，丢包率等指标

6.数据库分析

慢日志：检查是否存在性能低下的SQL语句
数据库状态：查看数据库连接数，锁等待情况等
执行计划分析关键SQL执行计划是否合理

7.代码级别分析

线程转储：获取java 线程转储（THREAD DUMP ) 分析线程状态
堆转储：必要时获取堆转储 HEAD DUMP 分析内存问题
代码回顾：检查最近代码变更，是否引入新的bug

8.性能风险与监控工具的使用

Profiler :使用 althas，jvisualvm 等工具进行cpu 和内存分析
监控工具：使用 prometheus,grafana,skywalking 等工具进行全链路跟踪

9.复现问题

在测试环境中常使复现问题，以便深入分析
模拟生产环境的负载和数据量

10 根因分析

基于收集到的所有信息，进行根因分析

11.解决方案

制定短期解决方案以快速修复问题
规划长期方案，防止类似的问题再次发生

12. 验证和监控

在测试环境验证解决方案的有效性
谨慎将方案应用到生产环境
持续监控系统，确保问题得到彻底解决

13 复盘与总结

编写详细的问题分析报告
总结经验教训，更新相关文档和最佳实践

posted on 2024-10-09 22:31 自由港阅读(124) 评论(0) 编辑收藏举报

努力加载评论中...

刷新页面返回顶部

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区，博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】博客园社区专享云产品让利特惠，阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

公告

支持DeepSeek的编程助手