正则表达式中的惰性匹配是什么意思?
刚学正则表达式的时候,惰性匹配还挺难理解的。所以我看了挺多博客,终于弄懂了,现在用表格整理一下:
符号 | 作用 |
---|---|
. | 匹配任意除换行符 \n 外的字符 |
* | 匹配前面的字符 0 次或多次 |
+ | 匹配前面的字符 1 次或多次 |
? | 匹配前面的字符零次或一次,或作为非贪婪限定符 |
.* | 匹配除换行符 \n 外的任意字符 0 次或多次 |
.+ | 匹配除换行符 \n 外的任意字符 1 次或多次 |
.*? | 匹配除换行符 \n 外的任意字符 0 次或多次,但匹配结果尽可能短 |
.+? | 匹配除换行符 \n 外的任意字符 0 次或多次,但匹配结果尽可能短 |
上面表格中最后两行的 ?
的作用就是指明一个非贪婪限定符,什么叫尽可能少重复?简单点说就是匹配最短的符合要求的表达式,如果不加 ?
,默认匹配满足要求的最长的字符串,下面举出例子:
示例一(.*?)
re.match(r'a.*b', 'aababa') # 1
re.match(r'a.*?b', 'aababa') # 2
- 1 式没有非贪婪限定符,匹配满足要求的最长表达式,结果为 aabab
- 2 式有非贪婪限定符,结果尽可能短,因此结果为 aab。但是!到这里字符串还没有匹配完,还会继续匹配直到最后一个字符,因此最终的结果是两个,aab 和 ab
示例二(.+?)
re.match(r'a.+?b', 'aababa') # 3
同理 .+?
也一样,只不过和 .*?
比起来,这里最后的结果不包括匹配 0 次的情况而已,所以 3 式结果为 aab,ab 由于中间匹配 0 次,不会被匹配。
较难一点的示例
re.match(r'hello.*?world', 'xxxhelloworldxxhelloxxworld' # 4
通过上面的解析,结果显而易见:helloworld 和 helloxxworld。至于为什么没有 helloworldxxhelloxxworld,相信你也清楚了。