正则表达式

 

字符 含义
.

表示匹配除了换行符外的任何字符

注:通过设置re.DITALL标志使.匹配任何字符(包括换行符)

| A|B,表示匹配正则表达式A或者B
^

1.(脱字符)匹配三个月人员字符串的开始位置

2.如果设置了re.MULTINE标志,^也匹配换行符之后的位置

$

1.匹配字符串的结束位置

2.如果设置了re.MULTINE标志,$也匹配换行符之后的位置

\

1.将一个普通字符串变成特殊字符,例如\d表示匹配所有的十进制数字

2.解除元字符的特殊功能,例如\.表示匹配点号本身

3.引号序号对应的子组所匹配的字符串

[...]

字符类,匹配所包含的任意一iiige字符

注1:连字符-如果出现在字符串中间表示字符范围描述;如果出现在首位仅作为普通字符

注2:特殊字符仅有反斜线\保持特殊含义,用于转义字符。其他特殊字符如*,+,?等均作为普通字符匹配

注3:脱字符^如果出现在首位则表示匹配不包含其中的任意字符;如果^出现在字符串中间就仅作为普通字符串匹配

{M,N}

M和N均为非负整数,其中M<=N,表示前边的RE匹配M~N次

注1:{M,} 表示至少匹配M次

注2:{,N}等价与{0,N}

注2:{N}表示需要匹配N次

* 匹配前面的子表达式零次或多次,等价于{0,}
+ 匹配前面的表达式一次或多次,等价于{1,}
? 匹配前面的子表达式零次或一次,等价于{0,1}
*?,+?,??

默认情况下*,+和?的匹配模式是贪婪模式(即会尽可能多地匹配符合规则的字符串);*?,+?和??表示启用对应的非贪婪模式。

举个例子:对于字符串'baidu',正则表达式baidu+会匹配整个字符串,则baidu+?则匹配'baidu'。

{M,N}? 同上,启动非贪婪模式,即只匹配M次
(...)

匹配圆括号i中的正则表达式,或者指定一个子组的开始和结束位置

注:子组的内容可以在匹配之后被\数字再次引用

举个例子:(\w+)\1可以匹配字符串'baidu baidu.com'中的'baidu baidu'(注意有空格)

(?...) (?开头的表示正则表达式的扩展语法(下边这些是Python支持的所有扩展语法))
(?aiLmsux)

1.(?开头可以紧跟着'a','i','L','m','s','u','x'中的一个或多个字符,只能在正则表达式的开头使用

2.每个字符对应一种匹配标志:re-A(只匹配ASCII字符),re-I(忽略大小写),re-L(区域设置),re-M(多行模式),re-S(.匹配任何字符),re-X(详细表达式),包含这些字符会影响整个正则表达式的规则

3.当你不想通过re.compile()设置正则表达式标志,这种方法非常有用

注意:由于(?x)决定正则表达式如何被解析,所以它应该总是被放在最前边(最多允许前边有空白符)。如果(?x)的前边是非空字符,那么(?x)就发挥不了作用了

(?...) 非捕获组,即该子组匹配的字符串无法从后边获取
(?P<name>) 命名组,通过组的名字(name)即可访问到子组匹配的字符串
(?P=name) 反向引用一个命名组,它匹配指定命名组匹配的任何内容
(?#...) 注释,括号中的内容将被忽略
(?=...)

向前肯定断言。如果当前包含的正则表达式(这里以...表示)在当前位置成功匹配,则代表成功,否则失败。一旦该部分正则表达式被匹配引擎尝试过,就不会继续进行匹配了;剩下的模式在此断言开始的地方继续尝试。

举个例子:love(?=baidu)只匹配后边紧跟着'baidu'的字符串'love'

(?!...)

前向否定断言。这跟前向肯定断言相反(不匹配则表示成功,匹配则表示失败)。

举个例子:baidu(?!\.com)只匹配后边不是‘.com’的字符串‘baidu’

(?<=...)

后向肯定断言。跟前向肯定断言一样,只是方向相反。

举个例子:(?<=love)baidu只匹配前边紧跟着'love'的字符串‘baidu’

(?<!...)

后向否定断言。跟前向否定断言一样,只是方向相反。

举个例子:(?<!baidu)\.com子匹配前边不是'baidu'的字符串'.com'

(?(id/name)yes-pattern|no-pattern)

1.如果子组的序号或名字存在的话,则尝试yes-pattern匹配模式;否则尝试no-pattern匹配模式

2.no-pattern是可选的

举个例子:(<)?(\w+@\w+(?:\.\w+)+)(?(1)>|$)是一个匹配邮件格式的正则表达式,可以匹配<user@baidu.com>和‘user,@baidu.com’,但不会匹配<user@baidu.com 或uer@baiidu.com>

\ 下边列举了由字符串'\'和另外一个字符串组成的特殊含义。注意‘\’+元字符的组合可以解除元字符的特殊功能
\序号

1.引用序号对应的子组所匹配的字符串,子组的序号从1开始。

2.如果序号是以0开头,或者3个数字的长度。那么不会被应用于引用对应的子组,而是用于匹配八进制数字所表示的ASCII码值对应的字符

举个例子:(.+) \1会匹配'baidubaidu'或‘55 55’,但不会匹配'baiduCbaiduC'(注意,因为子组后边还有一个空格)

\A

匹配输入字符串的开始位置
\Z 匹配输入字符串的结束位置
\b

匹配一个单词边界,单词被定义为Unidcode的字母数字或下划线字符

举个例子:\bbaidu\b会匹配字符串‘love baidu’,'baidu.'或'(baidu)'

\B

匹配非单词边界,其实就是与\b相反

举个例子:py\B会匹配字符串'python','py3'但不会匹配'py','py.'或'py!'

\d

1.对于Unicode(str类型)模式:匹配任何一个数字,包括[0-9]和其他数字字符;如果开启了re.ASCII标志,就匹配[0-9]

2.对于8位(bytes类型)模式:匹配[0-9]中任何一个数字

\D 匹配任何非Unicode的数字,其实就是与\d相反;如果开启了re.ASCII标志,则相当于匹配[^0-9]
\s

1.对于Unicode(str类型)模式:匹配Unicode中的空白字符(包括[\t\n\r\f\v])以及其他空白字符);如果开启了re.ASCII标志,就只匹配[\t\n\r\f\v])

2.对于8位(bytes类型)模式:匹配ASCII中定义的空白字符,即[\t\n\r\f\v])

\S 匹配任何非Unicode中的空白字符,其实就是与\s相反;如果开启了re.ASCII标志,则相当于匹配[^\t\n\r\f\v])
\w

1.对于Unicode(str类型)模式:匹配任何Unicode的单词字符,基本上所有语言的字符都可以匹配,当然也包含数字和下横线;如果开启了re.ASCII标志,就匹配[a-zA-Z0-0_]

2.对于8位(bytes类型)模式:匹配ASCII中定义的字母数字,即[a-zA-Z0-9_]

\W 匹配任何非Unicode的单词字符,其实就是与\w相反;如果开启了re.ASCII标志,则相当于匹配[^a-zA-Z0-9_]
转义符号

正则表达式还支持大部分Python字符串的转义符号:\a,\b,\f,\n,\r,\t,\u,\U,\v,\x,\\

注1:\b通常用于匹配一个单词边界,只有在字符类中才表示"退格"

注2:\u和\U只有在Unicode模式下才会被识别

注3:八进制转义(\数字)是有限制的,如果第一个数字是0,或者如果有3个八进制数字,那么就认为是八进制数;其他情况则被认为是子组引用;至于字符串,八进制转义总是最多只能是3个数字长度。

posted @ 2017-09-18 14:35  110528844  阅读(437)  评论(0编辑  收藏  举报