随笔 - 242, 文章 - 1, 评论 - 1678, 阅读 - 71万

德国科技管理专家斯坦门茨早年移居美国，他以非凡的才能成为美国企业界的佼佼者。一次，美国著名的福特公司的一组电机发生故障，在束手无策之时，公司请斯坦门茨出马解决问题。

斯坦门茨在电机旁仔细观察，经过计算，用粉笔在电机外壳划了一条线，说：“从这里打开，把里面的线圈减少16圈。”工人们照他说的一试，电机果然运转如初，福特公司给他酬金时，他索价一万美元。

公司老板觉得一条线要一万美元未免漫天要价。斯坦门茨回答：“用粉笔划一条线一美元，而知道在哪里划要9999美元。”公司老板认为言之有理，乃照付一万美元。

这个励志故事告诉咱们要懂得如何排查问题的重要价值。今天咱们就来总结一下排查问题的9种方法：

基础方法

监控告警

问题发生常用的手段有生产测试、监控告警和人工客诉。人工客诉是咱们最不愿意看到的，那就需要在产生业务影响前及早发现。监控告警是发现问题的有效手段，具体可以参考《通知&告警治理(降噪)的7种方法》这篇文章。

日志埋点

埋点是了解用户行为的重要步骤，但更重要的目的是识别用户的关键路径。注入特定的代码以记录关键指标是提升应用性能的重要步骤。

日志和埋点之间存在着细微的差别。埋点可以看作是日志的子集。被埋点的任何数据都应该记录在日志中。

埋点承担了为聚合分析发布关键性能数据的职责，日志则提供了用户在不同级别跟踪应用的细节信息，从低到高依次为:

Verbose:几乎提供了所有的细节，主要用于跟踪执行过程中控制流
Debug:表示数据主要用于调试
Info:表示非错误信息
Warning:表示可恢复的错误
Error：表示不可恢复的错误

日志的记录会贯穿应用的整个生命周期，而埋点只应该用在开发的特定阶段。通过埋点，可以把特定类型或有有价值的信息素材收集起来，基于这些素材可以做非常多的有价值的分析、追踪。

问题复现

这个不用多解释，聊聊复现的步骤：

● 确保所有的步骤都被记录。记录下所做的每一件事、每一个步骤、每一个停顿。无意间丢失一个步骤或者增加一个多余步骤，可能导致无法再现软件缺陷。在尝试运行测试用例时，可以利用录制工具确切地记录执行步骤。所有的目标是确保导致软件缺陷所需的全部细节是可见的。

● 特定条件和时间。软件缺陷仅在特定时刻出现吗？软件缺陷在特定条件下产生吗？产生软件缺陷是网络忙吗？在较差和较好的硬件设备上运行测试用例会有不同的结果吗？

● 压力和负荷、内存和数据溢出相关的边界条件。执行某个测试能导致产生缺陷的数据被覆盖，而只有在试图使用脏数据时才会再现。在重启 BUG 复现方法总结机器后，软件缺陷消失，当执行其他测试之后又出现这类软件缺陷，需要注意某些软件缺陷可能是在无意中产生的。

● 考虑资源依赖性包括内存、网络和硬件共享的相互作用等。软件缺陷是否仅在运行其他软件并与其他硬件通信的“繁忙”系统上出现？软件缺陷可能最终证实跟硬件资源、网络资源有相互的作用，审视这些影响有利于分离和再现软件缺陷。

● 不能忽视硬件。与软件不同，硬件Hi按预定方式工作。板卡松动、内存条损坏或者CPU过热都可能导致像是软件缺陷的失败。设法在不同硬件不再现软件缺陷。在执行配置或者兼容性测试时特别重要。判定软件缺陷是在一个系统上还是在多个系统上产生。

抓包分析

tcpdump命令配合Wiresshark等解析工具可对网络问题做初步的排查。比如http请求是明文传输，可以抓到完整的请求内容。但是如果是加密的，至少可以看到有没有RST等异常。或者原本应该观察的到返回包有没有，判断是哪个链路出的问题。