以前看到别人正则里写(?=),(?!)...这些,觉得云里雾里,完全不知道什么意思,今天突然搜到专门介绍的文章,看完后,有一种拨开云雾见月明的感觉。特此分享下。
正则表达式有俩种特别的情况:
1. 零宽断言:用于查找在某些内容(但不包括这些内容)之前或之后出现的字符,也就是说像\b,^,$那样用于指定一个位置,这个位置应该满足一定的条件(即断言),因此它们也被称为零宽断言。
(?=exp)也叫零宽度正预测先行断言,它断言自身出现的位置后面能匹配表达式exp。如:\b\w+(?=ing\b)匹配以ing结尾的单词的前面部分(除了ing以外的部分),如查找I'm singing while you're dancing.时,它会匹配sing和danc。
(?<=exp)也叫零宽度正回顾后发断言,它断言自身出现的位置前面能匹配表达式exp。如:(?<=\bre)\w+\b会匹配以re开头的单词的后面部分(除了re以外的部分),例如在查找reading a book时,它匹配ading。
假如你想要给一个很长的数字中每三位间加一个逗号(当然是从右边加起了),你可以这样查找需要在前面和里面添加逗号的部分:((?<=\d)\d{3})+\b,用它对xxxxxxxxxx进行查找时结果是xxxxxxxxxx
例如我们想查找这样的单词:它里面出现了字母q,但是q后面跟的不是字母u。我们可以尝试这样:\b\w*q[^u]\w*\b匹配包含字母q后面不是字母u的单词,但是如果多做测试(或者你思维足够敏锐,直接就观察出来了),你会发现,如果q出单词的结尾的话,像Iraq,Benq,这个表达式就会出错。因为[^u]总要去匹配一个字符,当字母q出现在最后的话,[^u]就会去匹配q后面的单词分隔符(可能是空格,句号,或者其它什么的),后面的\w*\b将会匹配下一个单词,于是\b\w*q[^u]\w*\b就能匹配整个Iraq fighting。负向零宽断言能解决这样的问题,因为它只匹配一个位置,不消耗任何字符。我们可以这样来解决这个问题:\b\w*q(?!u)\w*\b。