re模块

1、正则表达式的语法

'.' 匹配任意字符,若指定了re.S,则可以匹配换行符
'^' 匹配行首,即字符串的开头,若指定了re.M,会自动匹配每行开头
'$' 匹配行尾,同上
'*' 匹配大于等于0个的re
'+' 匹配大于等于1个的re
'?' 匹配0个或1个的re,此外?是非贪婪匹配的标志
{m} 指定re的个数刚好为m个
{m,n} 指定re的个数在m,n之间
[] 可以在其中指定字符集,其中特殊符号也会被视作是普通字符,'^'为除字符集以外的字符
'|' 或符号,匹配任意一个
('...') 若匹配到括号内的re,将其视为一个组,存在内存中
(?:'...') 将匹配到的组不存在内存中
(?iLmsux) 指定匹配方法
(?P<name>'...') 指定匹配的组的名称
(?#'...') 忽略指定的字符
(?='...') 如果指定的字符在匹配到的字符后面,才算匹配成功,例如:Isaac (?=Asimov) will match 'Isaac ' only if it’s followed by 'Asimov'
(?!'...') 与上面的相反,只有指定字符不在后面才匹配
(?<='...') 指定字符在前面才匹配
(?<!'...') 指定字符不在前面才匹配
\number
\b 匹配空字符串,仅在词的开头和结尾
\B 与b相反
\d 匹配数字
\D d的补集
\s 匹配空格
\S s的补集
\w 匹配字母,数字,下划线
\W w的补集

2、模块内容(常数,方法)

re.compile(pattern, flags=0) 预编译正则表达式
re.I/re.IGNORECASE 忽略大小写
re.L/re.LOCALE 使\w,\W,\b,\B,\s,\S根据当前作用域来判断
re.M/re.MULTILINE 匹配多行
re.S/re.DOTALL '.'匹配换行
re.U/re.UNICODE 匹配unicode字符集
re.X/re.VERBOSE 可以将正则写在多行中,并用#注释
re.search(pattern, string, flags=0) 搜索string中第一个匹配的部分
re.match(pattern, string, flags=0) 只从第一个字符开始匹配,若第一个不符合,就返回none
re.split(pattern, string, maxsplit=0, flags=0) 用pattern分割字符串,返回分割后的列表,若pattern以捕获组形式,则返回包括pattern的所有字符的列表
re.findall(pattern, string, flags=0) 找到所有符合条件的部分
re.finditer(pattern, string, flags=0)) 以迭代器形式返回所有匹配的部分,类型为MatchObject
re.sub(pattern, repl, string, count=0, flags=0) 执行count次repl替换string中匹配pattern的部分
re.subn(pattern, repl, string, count=0, flags=0) 同上,只是返回结果为新字符串和替换次数的元组
re.escape(pattern) 将pattern中的特殊符号加上转义符
re.purge() 清空正则表达式的缓存

3、MatchObject类

常用方法:group(),groups(),groupdict()包含匹配结果的组,start(),end()匹配结果的组的下标,span()返回start和end的元组
常见属性:lastindex,lastgroup,re,string