Pyhton--re模块正则表达式
import re # match对象 group(num=0) 匹配的整个表达式的字符串,group() 可以一次输入多个组号,在这种情况下它将返回一个包含那些组所对应值的元组。 # groups() 返回一个包含所有小组字符串的元组,从 1 到 所含的小组号。 # span() 返回由开始、结束位置组成的元组 # search() 扫描整个字符串并返回第一个成功的匹配,找到就返回match对象否则返回None。re.search(pattern, string, flags=0) def testSearch(): # 无论开始还是结束位置都可以查找 print(re.search('www','www.baidu.com').span()) print(re.search('com','www.baidu.com').span()) line = "Cats are smarter than dogs" # .* 表示任意匹配除换行符(\n、\r)之外的任何单个或多个字符 # (.*?) 表示"非贪婪"模式,只保存第一个匹配到的子串 searchObj = re.search(r'(.*) are (.*?) .*', line, re.M|re.I) print(searchObj.groups()) # ('Cats', 'smarter') if searchObj: print("searchObj.group() : ", searchObj.group()) # Cats are smarter than dogs print("searchObj.group(1) : ", searchObj.group(1)) # Cats print("searchObj.group(2) : ", searchObj.group(2)) else: print("Nothing found!!") # testSearch() # match() 尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回none。 # 用re.compile('xx').match()函数 可以指定开始搜索位置,而re.match()不可以 def testMatch(): print(re.match('www','www.baidu.com').span()) print(re.match('com','www.baidu.com')) # 返回None 找不到 line = "Cats are smarter than dogs" # .* 表示任意匹配除换行符(\n、\r)之外的任何单个或多个字符 # (.*?) 表示"非贪婪"模式,只保存第一个匹配到的子串 searchObj = re.match(r'(.*) are (.*?) .*', line, re.M|re.I) print(searchObj.groups()) # ('Cats', 'smarter') if searchObj: print("searchObj.group() : ", searchObj.group()) # Cats are smarter than dogs print("searchObj.group(1) : ", searchObj.group(1)) # Cats print("searchObj.group(2) : ", searchObj.group(2)) else: print("Nothing found!!") testMatch() # re.sub()查找替换字符串的匹配项 re.sub(pattern, repl, string, count=0, flags=0) # repl可以为字符串,也可以为函数 def testSub(): phone = "2004-959-559 # 这是一个电话号码" # 删除注释 num = re.sub(r'#.*$', "", phone) print("电话号码 : ", num) # 移除非数字的内容 num = re.sub(r'\D', "", phone) print("电话号码 : ", num) # 将字符串中的匹配的数字乘于 2 def double(matched): value = int(matched.group('value')) return str(value * 2) s = 'A23G4HFD567' # ?P<value>是将后面的匹配内容取一个组名value print(re.sub('(?P<value>\d+)', double, s)) # A46G8HFD1134 # testSub() # compile 函数用于编译正则表达式,生成一个正则表达式( Pattern )对象,供 match() 和 search() 这两个函数使用 # re.compile(pattern[, flags]) flags 匹配模式,re.I 忽略大小写 re.M 多行模式 re.S 即为' . '并且包括换行符在内的任意字符 re.U 表示特殊字符集 re.X 为了增加可读性,忽略空格和' # '后面的注释 def testCompile1(): pattern = re.compile(r'\d+') m = pattern.match('one12twothree34four') print(m) # None 头部查找没有 m = pattern.match('one12twothree34four', 2, 10) print(m) # None 从e查找没有 m = pattern.match('one12twothree34four', 3, 10) print(m) # 返回match对象 从1查找 # group([group1, …]) 方法用于获得一个或多个分组匹配的字符串,当要获得整个匹配的子串时,可直接使用 group() 或 group(0) print(m.group()) # start([group]) 方法用于获取分组匹配的子串在整个字符串中的起始位置(子串第一个字符的索引),参数默认值为 0 print(m.start()) # end([group]) 方法用于获取分组匹配的子串在整个字符串中的结束位置(子串最后一个字符的索引+1),参数默认值为 0 print(m.end()) # span([group]) 方法返回 (start(group), end(group)) print(m.span()) # testCompile1() def testCompile2(): pattern = re.compile(r'([a-z]+) ([a-z]+)', re.I) # re.I 表示忽略大小写 print(type(pattern)) # <class 're.Pattern'> m = pattern.match('Hello World Wide Web') print(m) # 匹配成功,返回一个 Match 对象 # <re.Match object; span=(0, 11), match='Hello World'> print(m.group(0)) # 返回匹配成功的整个子串 print(m.span(0)) # 返回匹配成功的整个子串的索引 print(m.group(1)) # 返回第一个分组匹配成功的子串 print(m.span(1)) # 返回第一个分组匹配成功的子串的索引 print(m.group(2)) # 返回第二个分组匹配成功的子串 print(m.span(2)) # 返回第二个分组匹配成功的子串索引 print(m.groups()) # 等价于 (m.group(1), m.group(2), ...) # testCompile2() # findall() 在字符串中找到正则表达式所匹配的所有子串,并返回一个列表,如果有多个匹配模式,则返回元组列表,如果没有找到匹配的,则返回空列表。 # 注意: match 和 search 是匹配一次 findall 匹配所有。 re.findall(pattern, string, flags=0) 或者 pattern.findall(string[, pos[, endpos]]) def testFindall(): pattern = re.compile(r'\d+') print(pattern.findall('runoob 123 google 456')) #['123', '456'] print(pattern.findall('run88oob123google456',0,10)) #['88', '12'] # 多个匹配则返回元组列表 print(re.findall(r'(\w+)=(\d+)', 'set width=20 and height=10')) #[('width', '20'), ('height', '10')] # testFindall() # finditer() 和 findall() 类似,只不过返回的是迭代器,迭代器每个元素都是一个match对象 def testFinditer(): pattern = re.compile(r'\d+') ret = pattern.finditer('asd1234dsfsd44') ret2 = re.finditer(r'(\w+)=(\d+)', 'set width=20 and height=10') for x in ret2: print(x.group(1)) # testFinditer() # split()按照能够匹配的子串将字符串分割后返回列表 re.split(pattern, string[, maxsplit=0, flags=0]) maxsplit分割次数,maxsplit=1 分割一次,默认为 0,不限制次数。 def testSplit(): # 以至少一个非数字字母下划线 看做 分隔符进行分割,返回list print(re.split(r'\W+', ' runoob, runoob, runoob.')) # ['', 'runoob', 'runoob', 'runoob', ''] print(re.split(r'(\W+)', ' runoob, runoob, runoob.')) # ['', ' ', 'runoob', ', ', 'runoob', ', ', 'runoob', '.', ''] # 如果找不到,则不进行分割 print(re.split('a*', 'hello world')) # ['hello world'] # testSplit()
模式
|
描述
|
---|---|
^
|
匹配字符串的开头
|
$
|
匹配字符串的末尾。
|
.
|
匹配任意字符,除了换行符,当re.DOTALL标记被指定时,则可以匹配包括换行符的任意字符。
|
[...]
|
用来表示一组字符,单独列出:[amk] 匹配 'a','m'或'k'
|
[^...]
|
不在[]中的字符:[^abc] 匹配除了a,b,c之外的字符。
|
re*
|
匹配0个或多个的表达式。
|
re+
|
匹配1个或多个的表达式。
|
re?
|
匹配0个或1个由前面的正则表达式定义的片段,非贪婪方式
|
re{ n}
|
匹配n个前面表达式。例如,"o{2}"不能匹配"Bob"中的"o",但是能匹配"food"中的两个o。
|
re{ n,}
|
精确匹配n个前面表达式。例如,"o{2,}"不能匹配"Bob"中的"o",但能匹配"foooood"中的所有o。"o{1,}"等价于"o+"。"o{0,}"则等价于"o*"。
|
re{ n, m}
|
匹配 n 到 m 次由前面的正则表达式定义的片段,贪婪方式
|
a| b
|
匹配a或b
|
(re)
|
匹配括号内的表达式,也表示一个组
|
(?imx)
|
正则表达式包含三种可选标志:i, m, 或 x 。只影响括号中的区域。
|
(?-imx)
|
正则表达式关闭 i, m, 或 x 可选标志。只影响括号中的区域。
|
(?: re)
|
类似 (...), 但是不表示一个组
|
(?imx: re)
|
在括号中使用i, m, 或 x 可选标志
|
(?-imx: re)
|
在括号中不使用i, m, 或 x 可选标志
|
(?#...)
|
注释.
|
(?= re)
|
前向肯定界定符。如果所含正则表达式,以 ... 表示,在当前位置成功匹配时成功,否则失败。但一旦所含表达式已经尝试,匹配引擎根本没有提高;模式的剩余部分还要尝试界定符的右边。
|
(?! re)
|
前向否定界定符。与肯定界定符相反;当所含表达式不能在字符串当前位置匹配时成功。
|
(?> re)
|
匹配的独立模式,省去回溯。
|
\w
|
匹配数字字母下划线
|
\W
|
匹配非数字字母下划线
|
\s
|
匹配任意空白字符,等价于 [\t\n\r\f]。
|
\S
|
匹配任意非空字符
|
\d
|
匹配任意数字,等价于 [0-9]。
|
\D
|
匹配任意非数字
|
\A
|
匹配字符串开始
|
\Z
|
匹配字符串结束,如果是存在换行,只匹配到换行前的结束字符串。
|
\z
|
匹配字符串结束
|
\G
|
匹配最后匹配完成的位置。
|
\b
|
匹配一个单词边界,也就是指单词和空格间的位置。例如, 'er\b' 可以匹配"never" 中的 'er',但不能匹配 "verb" 中的 'er'。
|
\B
|
匹配非单词边界。'er\B' 能匹配 "verb" 中的 'er',但不能匹配 "never" 中的 'er'。
|
\n, \t, 等。
|
匹配一个换行符。匹配一个制表符, 等
|