当你发现一个故障时改怎么办?试着让它在此发生。这样做有3个原因。
-
可以观察它。要观察错误,就必须使它发生。我们必须尽可能有规律地制造失败。
-
可以专心查找原因。准确地知道问题在什么条件下会发生。有助于集中精力查找原因。
-
可以判断是否已修复问题。当你认为已经修复了问题时,如果才能确信它确实已被修复呢?那就是明确知道问题是如何发生的。当问题没有修复时,如果你执行X操作,失败率为100%;在修复问题后,在执行X操作,如果失败率为0,那么你知道bug确实已被修复。
制造失败
但如何才能让它失败呢?一种简单的方法是进行一次内部预演,还有一种同样有效的方法是演示给未来的投资者。如果碰巧没有客户或投资者在现场,那么你就必须正常使用,并观察它是如何出错的。当然,测试本来就应该是这样的,但这里的重要之处是在错误第一次出现之后,能够使它再现。通常,认真记录测试过程可以作为补充,但你必须认识到仅有一次错误是不够的。
仔细观察你做了什么。然后再做一次,并且记下你做的每个步骤。然后,按照你自己所写的步骤去做,确定这样做确实导致了错误(实际上,在有些情况下,令设备发生错误具有一定的破坏性,或者代价很大,这时每次都使设备发生同样的错误就不是一种好办法。为了控制损失,必须改变一些地方,但我们尽量少改动原来的系统和顺序)。
从头开始
通常,所需的步骤很短,也很少。
引发失败
在调试故障的时候,如果需要手工执行很多步骤,那么使整个过程自动化会很有帮助。在很多情况下,只有在重复很多次后,错误才会出现,因为我们希望在夜间运行自动测试工具。
不要模拟失败
引发失败(正确)和模拟失败(错误)这二者之间存在着非常大的差别。
在类似的系统上再现bug是一种较为有用的方法,但有一些限制条件。如果一个bug可以在多个系统上再现,那么我们就可以认为它是设计bug,因为它并不是在一种系统上以某种特定的方式出现。如果在某些配置下能够再现它,而在另一些配置下无法再现,那么这就帮助我们缩小了查找范围。但是,如果无法快速地再现它,那么不要为了使它出现而改变你的模拟环境。这样会产生新的配置,而不是原来发生错误的那个配置了。无论一个系统在哪种常规配置下发生故障,都要在该系统上使用该配置来查找问题。
如何处理间歇性bug
当故障只是偶尔发生时,用"制造失败"这种方法来调试就困难得多。很多棘手的问题都是间歇性的,这就是不能总是应用这条规则的原因——它很难应用。
关键问题在于你并没有完全弄清楚失败时如何发生的。你知道你做了什么,但并不知道完整的、准确的条件。还有其他你没注意或无法控制的因素。如果你能够控制所有这些条件,那么就可以一直使错误发生。
那么,如何控制这些条件呢?首先,查明它们。
一旦想到了有哪些条件可能影响你的系统,必须大量尝试与这些条件相符的各种形式。初始化这些条件,并按照一种已知模式把这些条件作为你的问题软件的输入。
有时,你会发现当你控制某个条件的时候,问题消失了。这时你就发现了是什么条件导致了失败。当然,如果发生这种情况,你需要尝试该条件下的每个可能的值,直到找到导致系统失败的那个值。
有时,你会发现有些条件是无法控制的,但是可以增加它的随机性。
如果做了所有尝试之后问题仍然间歇性发生
记住,我们之所以制造失败,是处于3个目的:一是观察错误,二是查找线索,三是确认是否已修复。
仔细观察失败
你必须能够看到失败。如果它不是每次都发生,那么就必须忽略掉不发生的时候,而在它每次发生时观察它。关键是在每次运行的时候捕捉相关信息,以便在发生失败之后查看数据。方法就是让系统在运行的时候尽可能多低输出信息,并把它们记录到"调试日志"文件中。
通过查看捕获到的信息,很容易把正常运行和错误运行放在一起进行比较。如果你捕获到了正确的信息,就能够看到正常运行与错误运行之间的区别。仔细观察只在错误运行中才发生的那些事情。这是实际开始调试时需要注意的地方。
尽管失败时间歇性的,但这样就能识别并捕获发生错误的条件,然后对其进行分析,就像它们每次都发生一样。
不要盲目相信统计数据
制造失败的第二个目的是获得问题发生的线索。当发生一个间歇性的问题时,你可以注意那些看起来与问题有关的操作模式。这种思路是没有问题的,但不要被表面现象所误导。
如果失败是随机发送的,你可能无法收集到足够多的统计样本来作出判断。很多时候,巧合会使你误认为某种条件比其他条件更可能引发问题。然后你就会开始自习研究"这两种条件之间有什么区别",由于你找错了对象,这将会浪费大量时间。
这并不意味着你所看到的这些巧合的区别与问题不存在任何联系。但是,如果它们没有直接的影响,那么它们与问题的联系将会隐藏在其他随机因素背后,这时通过查看这些区别来找到原因的机会时非常渺茫的。
当你捕获到足够多的信息时,就可以确定哪些因素总是与bug有关,或者哪些因素从来都与bug无关。在查找问题根源的时候,这些因素时需要重点关注的
是已修复bug,还是仅仅由于运气好,它不再发生了
如果失败是随机发生的,那么要想证明bug是否已被修复就会困难得多。
如果采用统计测试方法,那么运行的样本越多,结果就越准确。但是,更好的方法是找到一个总是与失败有关的时间序列。即时这个序列本身就是间歇性的,但当它发生时,100%会发生失败。然后,当你认为已修复bug时,就可以运行测试,直到这个序列出现,如果没有发生失败,那么你确实已修复了bug。
"那不可能发生"
这里的关键是"那"这个词。"那"是指什么?它是测试人员或工程师所认为的问题背后的失败机理。或者说"那"是指一个事情序列,这个序列看起来是再现问题的关键。
永远不要丢掉调试gongju
有时,一种测试工具可以在其他的调试场合重复使用。当你设计它的时候,应该考虑到这一点,并且使它易于维护和升级。这意味着要采用好的工程技术,并实现文档化,等等。把它加入到源代码控制系统中,并构建到你的系统中,以便随时可以使用。不要只把它当做一次性的工具来编码,扔掉它可能是错误的。
小结
虽然看起来很简单,但如果不制造失败的话,调试就会变得很困难。
- 制造失败。目的是为了观察它,找到原因,并检查是否已修复。
- 从头开始。
- 引发失败。
- 但不要模拟失败
- 查找不受你控制的条件(正是它导致了间歇性失败)
- 记录每件事情,并找到间歇性bug的特征。
- 不要过于相信统计数据。
- 要认识到"那"是可能发生的。
- 永远不要丢掉一个调试工具