正则匹配规则
规则1:优先选择最左端的匹配结果(Rule 1: The Match That Begins Earliest Wins)
根据这条规则,起始位置最靠左的匹配结果总是优先于其他可能的匹配结果。这条规则并没有规定优先的匹配结果的长度(稍后将会讨论),而只是规定,在所有可能的匹配结果中,优先选择开始位置最左端的。实际上,因为可能有多个匹配结果的起始位置都在最左端,也许我们应该把这条规则中的“某个匹配结果(a match)”改为“该匹配结果(the match)”,不过这听起来有些别扭。
这条规则的由来是:匹配先从需要查找的字符串的起始位置尝试匹配。在这里,“尝试匹配(attempt)”的意思是,在当前位置测试整个正则表达式(可能很复杂)能匹配的每样文本。如果在当前位置测试了所有的可能之后不能找到匹配结果,就需要从字符串的第二个字符之前的位置开始重新尝试。在找到匹配结果以前必须在所有的位置重复此过程。只有在尝试过所有的起始位置(直到字符串的最后一个字符)都不能找到匹配结果的情况下,才会报告“匹配失败”。
所以,如果要用「ORA」来匹配FLORAL,从字符串左边开始第一轮尝试会失败(因为「ORA」不能匹配FLO),第二轮尝试也会失败(「ORA」同样不能匹配LOR),从第三个字符开始的尝试能够成功,所以引擎会停下来,报告匹配结果FLORAL。
如果不了解这条规则,有时候就不能理解匹配的结果。例如,用「cat」来匹配:
The dragging belly indicates that your cat is too fat.
结果是indicates,而不是后来出现的cat。单词cat是能够被匹配的,但indicates中的cat出现的更早,所以得到匹配的是它。对于egrep之类的程序来说,这种差别是无关紧要的,因为它只关心“是否”能够匹配,而不是“在哪里”匹配。但如果是进行其他的应用,例如查找和替换,这种差别就很重要了。
这里有一个小测验(应该不困难):如果用「fat|cat|belly|your」来匹配字符串‘The dragging belly indicates that your cat is too fat.’,结果是什么呢?请看下一页。
“传动装置(transmission)”和驱动过程(bump-along)
或许汽车变速箱(译注1)的例子有助于理解这条规则,驾驶员在换档时,变速箱负责连接引擎和动力系统。引擎是真正产生动力的地方(它驱动曲轴),而变速箱把动力传送到车轮。
传动装置的主要功能:驱动
如果引擎不能在字符串开始的位置找到匹配的结果,传动装置就会推动引擎,从字符串的下一个位置开始尝试,然后是下一个,再下一个,如此继续。不过,如果某个正则表达式是以“字符串起始位置锚点(start-of-string anchor)”开头的,传动装置就会知道,不需要更多的尝试,因为如果能够匹配,结果肯定是从字符串的头部开始的。在第6章中,我们会讲解这一点,以及更多的内部优化措施。