python re:正向肯定预查(?=)和反向肯定预查(?<=)
参考资料:https://tool.oschina.net/uploads/apidocs/jquery/regexp.html
(?=pattern) | 正向肯定预查,在任何匹配pattern的字符串开始处匹配查找字符串。这是一个非获取匹配,也就是说,该匹配不需要获取供以后使用。例如,“Windows(?=95|98|NT|2000) ”能匹配“Windows2000 ”中的“Windows ”,但不能匹配“Windows3.1 ”中的“Windows ”。预查不消耗字符,也就是说,在一个匹配发生后,在最后一次匹配之后立即开始下一次匹配的搜索,而不是从包含预查的字符之后开始。 |
---|
(?<=pattern) | 反向肯定预查,与正向肯定预查类拟,只是方向相反。例如,“(?<=95|98|NT|2000)Windows ”能匹配“2000Windows ”中的“Windows ”,但不能匹配“3.1Windows ”中的“Windows ”。 |
---|
(?:pattern) | 匹配pattern但不获取匹配结果,也就是说这是一个非获取匹配,不进行存储供以后使用。这在使用或字符“(|) ”来组合一个模式的各个部分是很有用。例如“industr(?:y|ies) ”就是一个比“industry|industries ”更简略的表达式。 |
---|
参考:https://docs.python.org/zh-cn/3.7/library/re.html#re.Pattern.match
(?=…)
-
匹配
…
的内容,但是并不消费样式的内容。这个叫做 lookahead assertion。比如,Isaac (?=Asimov)
匹配'Isaac '
只有在后面是'Asimov'
的时候。
(?!…)
-
匹配
…
不符合的情况。这个叫 negative lookahead assertion (前视取反)。比如说,Isaac (?!Asimov)
只有后面 不 是'Asimov'
的时候才匹配'Isaac '
。
(?<=…)
-
匹配字符串的当前位置,它的前面匹配
…
的内容到当前位置。这叫:dfn:positive lookbehind assertion (正向后视断定)。(?<=abc)def
会在'abcdef'
中找到一个匹配,因为后视会往后看3个字符并检查是否包含匹配的样式。包含的匹配样式必须是定长的,意思就是abc
或a|b
是允许的,但是a*
和a{3,4}
不可以。注意以 positive lookbehind assertions 开始的样式,如(?<=abc)def
,并不是从 a 开始搜索,而是从 d 往回看的。你可能更加愿意使用search()
函数,而不是match()
函数:>>> import re >>> m = re.search('(?<=abc)def', 'abcdef') >>> m.group(0) 'def'
这个例子搜索一个跟随在连字符后的单词:
>>> m = re.search(r'(?<=-)\w+', 'spam-egg') >>> m.group(0) 'egg'
example:
import re pattern1=re.compile(r'(?<=\().*') pattern2=re.compile(r'(?<=\().*(?=\))') str1 = pattern1.sub('0000000' ,'adod(23d)das') print(str1) str2 = pattern2.sub('0000000' ,'adod(23d)das') print(str2) m = re.search('(?<=abc)def', 'abcdef') print(m.group()) m1 = re.search('abcd(?=def)', 'abcddef abcdef') print(m1.group())
运行结果如下所示:
adod(0000000 adod(0000000)das def abcd