正则表达式

字符	含义
.	表示匹配除了换行符外的任何字符注:通过设置re.DITALL标志使.匹配任何字符(包括换行符)
\|	A\|B,表示匹配正则表达式A或者B
^	1.(脱字符)匹配三个月人员字符串的开始位置 2.如果设置了re.MULTINE标志,^也匹配换行符之后的位置
$	1.匹配字符串的结束位置 2.如果设置了re.MULTINE标志,$也匹配换行符之后的位置
\	1.将一个普通字符串变成特殊字符,例如\d表示匹配所有的十进制数字 2.解除元字符的特殊功能,例如\.表示匹配点号本身 3.引号序号对应的子组所匹配的字符串
[...]	字符类,匹配所包含的任意一iiige字符注1:连字符-如果出现在字符串中间表示字符范围描述;如果出现在首位仅作为普通字符注2:特殊字符仅有反斜线\保持特殊含义,用于转义字符。其他特殊字符如*,+,?等均作为普通字符匹配注3:脱字符^如果出现在首位则表示匹配不包含其中的任意字符;如果^出现在字符串中间就仅作为普通字符串匹配
{M,N}	M和N均为非负整数,其中M<=N,表示前边的RE匹配M～N次注1:{M,} 表示至少匹配M次注2:{,N}等价与{0,N} 注2:{N}表示需要匹配N次
*	匹配前面的子表达式零次或多次,等价于{0,}
+	匹配前面的表达式一次或多次,等价于{1,}
?	匹配前面的子表达式零次或一次,等价于{0,1}
*?,+?,??	默认情况下,+和?的匹配模式是贪婪模式(即会尽可能多地匹配符合规则的字符串);?，+?和??表示启用对应的非贪婪模式。举个例子:对于字符串'baidu',正则表达式baidu+会匹配整个字符串,则baidu+?则匹配'baidu'。
{M,N}?	同上,启动非贪婪模式,即只匹配M次
(...)	匹配圆括号i中的正则表达式,或者指定一个子组的开始和结束位置注:子组的内容可以在匹配之后被\数字再次引用举个例子:(\w+)\1可以匹配字符串'baidu baidu.com'中的'baidu baidu'(注意有空格)
(?...)	（?开头的表示正则表达式的扩展语法(下边这些是Python支持的所有扩展语法)）
(?aiLmsux)	1.(?开头可以紧跟着'a','i','L','m','s','u','x'中的一个或多个字符,只能在正则表达式的开头使用 2.每个字符对应一种匹配标志:re-A(只匹配ASCII字符),re-I(忽略大小写),re-L(区域设置),re-M(多行模式),re-S(.匹配任何字符),re-X(详细表达式),包含这些字符会影响整个正则表达式的规则 3.当你不想通过re.compile()设置正则表达式标志,这种方法非常有用注意:由于(?x)决定正则表达式如何被解析,所以它应该总是被放在最前边(最多允许前边有空白符)。如果(?x)的前边是非空字符,那么(?x)就发挥不了作用了
(?...)	非捕获组,即该子组匹配的字符串无法从后边获取
(?P<name>)	命名组,通过组的名字(name)即可访问到子组匹配的字符串
(?P=name)	反向引用一个命名组，它匹配指定命名组匹配的任何内容
(?#...)	注释,括号中的内容将被忽略
(?=...)	向前肯定断言。如果当前包含的正则表达式(这里以...表示)在当前位置成功匹配,则代表成功,否则失败。一旦该部分正则表达式被匹配引擎尝试过,就不会继续进行匹配了;剩下的模式在此断言开始的地方继续尝试。举个例子:love(?=baidu)只匹配后边紧跟着'baidu'的字符串'love'
(?!...)	前向否定断言。这跟前向肯定断言相反(不匹配则表示成功,匹配则表示失败)。举个例子：baidu(?!\.com)只匹配后边不是‘.com’的字符串‘baidu’
(?<=...)	后向肯定断言。跟前向肯定断言一样，只是方向相反。举个例子:(?<=love)baidu只匹配前边紧跟着'love'的字符串‘baidu’
(?<!...)	后向否定断言。跟前向否定断言一样，只是方向相反。举个例子:(?<!baidu)\.com子匹配前边不是'baidu'的字符串'.com'
(?(id/name)yes-pattern\|no-pattern)	1.如果子组的序号或名字存在的话,则尝试yes-pattern匹配模式;否则尝试no-pattern匹配模式 2.no-pattern是可选的举个例子:(<)?(\w+@\w+(?:\.\w+)+)(?(1)>\|$)是一个匹配邮件格式的正则表达式,可以匹配<user@baidu.com>和‘user,@baidu.com’，但不会匹配<user@baidu.com 或uer@baiidu.com>
\	下边列举了由字符串'\'和另外一个字符串组成的特殊含义。注意‘\’+元字符的组合可以解除元字符的特殊功能
\序号	1.引用序号对应的子组所匹配的字符串,子组的序号从1开始。 2.如果序号是以0开头，或者3个数字的长度。那么不会被应用于引用对应的子组，而是用于匹配八进制数字所表示的ASCII码值对应的字符举个例子:(.+) \1会匹配'baidubaidu'或‘55 55’,但不会匹配'baiduCbaiduC'(注意，因为子组后边还有一个空格)
\A	匹配输入字符串的开始位置
\Z	匹配输入字符串的结束位置
\b	匹配一个单词边界,单词被定义为Unidcode的字母数字或下划线字符举个例子:\bbaidu\b会匹配字符串‘love baidu’,'baidu.'或'(baidu)'
\B	匹配非单词边界，其实就是与\b相反举个例子:py\B会匹配字符串'python','py3'但不会匹配'py','py.'或'py!'
\d	1.对于Unicode(str类型)模式:匹配任何一个数字,包括[0-9]和其他数字字符;如果开启了re.ASCII标志,就匹配[0-9] 2.对于8位(bytes类型)模式:匹配[0-9]中任何一个数字
\D	匹配任何非Unicode的数字,其实就是与\d相反;如果开启了re.ASCII标志,则相当于匹配[^0-9]
\s	1.对于Unicode(str类型)模式:匹配Unicode中的空白字符(包括[\t\n\r\f\v])以及其他空白字符);如果开启了re.ASCII标志,就只匹配[\t\n\r\f\v]) 2.对于8位(bytes类型)模式:匹配ASCII中定义的空白字符,即[\t\n\r\f\v])
\S	匹配任何非Unicode中的空白字符,其实就是与\s相反;如果开启了re.ASCII标志,则相当于匹配[^\t\n\r\f\v])
\w	1.对于Unicode(str类型)模式:匹配任何Unicode的单词字符，基本上所有语言的字符都可以匹配,当然也包含数字和下横线;如果开启了re.ASCII标志,就匹配[a-zA-Z0-0_] 2.对于8位(bytes类型)模式:匹配ASCII中定义的字母数字,即[a-zA-Z0-9_]
\W	匹配任何非Unicode的单词字符，其实就是与\w相反;如果开启了re.ASCII标志,则相当于匹配[^a-zA-Z0-9_]
转义符号	正则表达式还支持大部分Python字符串的转义符号:\a,\b,\f,\n,\r,\t,\u,\U,\v,\x,\\ 注1:\b通常用于匹配一个单词边界，只有在字符类中才表示"退格" 注2:\u和\U只有在Unicode模式下才会被识别注3:八进制转义(\数字)是有限制的，如果第一个数字是0，或者如果有3个八进制数字，那么就认为是八进制数；其他情况则被认为是子组引用；至于字符串，八进制转义总是最多只能是3个数字长度。

posted @ 2017-09-18 14:35 110528844 阅读(437) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

冯俊杰

正则表达式

公告