re模块小结

一．引子：

文件err.txt中有如下内容：

要求提取出所有的电话号码来。

方法一：文件操作法：

f = open('eer.txt','r',encoding='utf-8')
l = []

for line in f:
    name,city,high,weigh,phone = line.split() ###
    if phone.startswith('1') and len(phone) == 11:
        l.append(phone)
f.close()
print(l)

　输出：

方法二：正则表达式法：

import re

f = open('eer.txt','r',encoding='utf-8')
data = f.read()

phones = re.findall('1[0-9]{10}',data)

print(phones)

输出是一样的。

二.re的匹配语法有以下几种：

1. re.match 从头开始匹配

2.re.search 匹配包含

3.re.findall 把所有匹配到的字符放到以列表中的元素返回

4.re.split 以匹配到的字符当做列表分隔符

5.re.sub 匹配字符并替换

6.re.fullmatch 全部匹配

注意：re.match()是从头开始，也就是说字符串的开头必须是符合匹配条件的，re.search()是全局匹配，它两只能匹配一个。而re.findall()可以匹配到所有符合条件的字符。另外，re.match()与re.search()返回的是一个对象，并且可以返回匹配值的索引，而re.findall()只能以列表形式返回符合匹配条件的所有的值。

match方法：

search方法：

search方法返回一个对象，包含索引（match方法也一样）：

findall方法：

三.常用的表达式规则：

1 '.' 默认匹配除\n之外的任意一个字符，若指定flag DOTALL,则匹配任意字符，包括换行

2 '^' 匹配字符开头，若指定flags MULTILINE,这种也可以匹配上(r"^a","\nabc\neee",flags=re.MULTILINE)

3 '$' 匹配字符结尾，若指定：flags MULTILINE ,re.search('foo.$','foo1\nfoo2\n',re.MULTILINE).group() 会匹配到foo1

4 '*' 匹配*号前的字符0次或多次， re.search('a*','aaaabac') 结果'aaaa'

5 '+' 匹配前一个字符1次或多次，re.findall("ab+","ab+cd+abb+bba") 结果['ab', 'abb']

6 '?' 匹配前一个字符1次或0次 ,re.search('b?','alex').group() 匹配b 0次

7 '{m}' 匹配前一个字符m次 ,re.search('b{3}','alexbbbs').group() 匹配到'bbb'

8 '{n,m}' 匹配前一个字符n到m次，re.findall("ab{1,3}","abb abc abbcbbb") 结果'abb', 'ab', 'abb']

9 '|' 匹配|左或|右的字符，re.search("abc|ABC","ABCBabcCD").group() 结果'ABC'

10 '(...)' 分组匹配， re.search("(abc){2}a(123|45)", "abcabca456c").group() 结果为'abcabca45'

11 '\A' 只从字符开头匹配，re.search("\Aabc","alexabc") 是匹配不到的，相当于re.match('abc',"alexabc") 或^

12 '\Z' 匹配字符结尾，同$

13 '\d' 匹配数字0-9

14 '\D' 匹配非数字

15 '\w' 匹配[A-Za-z0-9]

16 '\W' 匹配非[A-Za-z0-9]

17 '\s' 匹配空白字符、\t、\n、\r , re.search("\s+","ab\tc1\n3").group() 结果 '\t'

18 '(?P<name>...)' 分组匹配 re.search("(?P<province>[0-9]{4})(?P<city>[0-9]{2})(?P<birthday>[0-9]{4})","371481199306143242").groupdict("city") 结果{'province': '3714', 'city': '81', 'birthday': '1993'}

posted on 2018-04-06 20:33 江湖乄夜雨阅读(239) 评论(0) 收藏举报