[python] 正则表达式细节

所谓零宽断言就是并不去真正的匹配字符串文本，而仅仅是匹配对应的位置。

正则表达式中有很多这样的断言，常见的如匹配字符串或者行的起始位置 ^ 和 /A，匹配字符串或者行的末尾 $ 和 /Z，单词边界/B等等。这些简单的就不说了，今天主要说一下界定的使用方法。

表达式结构：

(?=exp)	匹配exp前面的位置，即某表达式后面是exp
(?<=exp)	匹配exp后面的位置，即某表达式前面是exp
(?!exp)	匹配后面跟的不是exp的位置，即某表达式后面不是exp
(?<!exp)	匹配前面不是exp的位置，即某表达式前面不是exp

(?<=<(\w+)>).*(?=<\/\1>) 匹配不包含属性的简单HTML标签内里的内容。

在Python3.7下测试：

import re
str = "(?<=<(\w+)>).*(?=(<\/\1>))"
re = re.compile(str)

error: look-behind requires fixed-width pattern

错误说明：前向界定括号中的表达式必须是常值，也就是不可以在前向界定的括号里写正则式。

建议：安装 regex 模块替代原有的 re，regex修正了re不少的bug，只要 import regex as re 就跟内置的re用法一样了

与大多数编程语言相同，正则表达式里使用"\"作为转义字符，这就可能造成反斜杠困扰。

假如你需要匹配文本中的字符"\"，那么使用编程语言表示的正则表达式里将需要4个反斜杠"\\\\"：

第一个和第三个用于在编程语言里将第二个和第四个转义成反斜杠，

转换成两个反斜杠\\后再在正则表达式里转义成一个反斜杠用来匹配反斜杠\。

这样显然是非常麻烦的。

Python里的原生字符串很好地解决了这个问题，这个例子中的正则表达式可以使用r"\\"表示。

同样，匹配一个数字的"\\d"可以写成r"\d"。

有了原生字符串，妈妈再也不用担心我的反斜杠问题~

posted @ 2017-09-14 16:09 推杯问盏阅读(158) 评论(0) 收藏举报

刷新页面返回顶部