正则表达式
正则表达式:就是用来查找字符串的,他能查找规则比较复杂的字符串
字符串是我们在编程的时候很常用的一种数据类型,检查会在字符串里面查找一些内容,对于比较简单的查找,字符串里面就有一些内置的方法可以处理,对于比较复杂的字符串查找,或者是有一些内容经常变化的字符串里面查找,那么字符串内置的查找方法已经不好使了,满足不了我们的要求,这个时候就得用正则表达式了,正则表达式就是用来匹配一些比较复杂的字符串。
一. 正则匹配模式
正则匹配模式是用在match、search、findall里面的第三个参数,还有其他的模式,但是一般也用不到,就这两种能用到,别的就不记了
1 2 3 |
re.I: #忽略大小写 re.M: #多行模式,改变'^'和'$'的行为 re.findall('pattern', 'string',re.I) |
二. 匹配字符串的几个方法
1.match方法
是从字符串的第一个单词中匹配字符串,如果匹配到返回一个对象,如果匹配不到,则返回None;match方法接收3个参数,第一个是匹配的规则,也就是正则表达式,第二个是要查找的字符串,第三个参数不是必填的,用于控制正则表达式的匹配方式,看下面正则表达式的匹配模式。
print(re.match(r'b', s)) #返回None这个不好用,只能从第一个单词进行匹配
print(re.match(r'best', s).group()) #返回best
2.search方法
参数和match一样,和match方法不一样的是,match是从字符串里面的第一个单词里面找,而search方法则是从字符串的整个内容里面找,如果找到了就返回第一个,找不到就返回None
s = 'besttest is is isisis good'
print(re.search('is', s)) #<_sre.SRE_Match object; span=(9, 11), match='is'>只找到一个
print(re.search('is',
s).group()) #is
3.findall方法
参数和上面的match、search一样,和他们不一样的是,findall会返回所有一个list,把所有匹配到的字符串,放到这个list里面,如果找不到的话,就返回一个空的list
s = 'besttest is is isisis good'
print(re.findall('is', s)) #['is', 'is', 'is', 'is', 'is'] 找不到返回一个[]
4.sub方法
和字符串的replace方法一样是用来替换字符串的,把匹配到的值替换成一个新的字符串,接收3个参数,第一个是正则表达式,第二个是要替换成什么,第三个就是要查找的字符串, 会返回一个新的字符串,如果匹配不到的话,返回原来的字符串
s = 'besttest is is besttest besttestbesttest good'
G=re.sub('best', 'Best', s)
print(G) #返回Besttest is is Besttest
BesttestBesttest good
5.split 方法
和字符串的split方法一样,是用来分割字符的,按照匹配到的字符串进行分割,返回的是一个list,如果匹配不到的话,那返回的list中还是原来的字符串
s = 'besttest
is is isisis good'
print(re.split('best', s)) #['',
'test is is isisis good']
print('xxx,xxx,xxxx'.split(',')) #['xxx', 'xxx', 'xxxx']
三. 常用正则表达式符号
1.数量词
1)'*' 匹配*号前的字符0次或多次,只是*前面的一个字符,其实就是*前面的一个字符可以忽略,根据*前面之前一个字符之外的字符进行查找
print(re.findall(r'be*','besttest very best b bes')) #['be', 'be', 'b','be']
print(re.findall(r'ab*','ab a abb abe')) #['ab', 'a', 'abb', 'ab']
print(re.findall(r'a*b','ab a abb abe')) #['ab', 'ab', 'b', 'ab']
2) '+'匹配前一个字符1次或多次,只是+前面的一个字符
print(re.findall(r'st+','besttest is best')) #['stt', 'st', 'st']
3)'?'匹配前一个字符1次或0次,只是?前面的一个字符
print(re.findall(r'st?','besttest is best')) #['st', 'st', 's', 'st']
4)'{m}' 匹配前一个字符m次
print(re.findall(r't{2}','besttest is best letter')) #['tt', 'tt']
print(re.findall(r't{2}er','besttest is best
letter letter')) #['tter','tter']
5) '{n,m}' 匹配前一个字符n到m次
print(re.findall(r't{1,2}','besttest is best
besttt')) #['tt', 't', 't', 'tt', 't']
print(re.findall(r't{1,3}','besttest
is best besttt')) #['tt', 't', 't', 'ttt']
2.一般字符
1)'.' 默认匹配除\n之外的任意一个字符
print(re.findall(r'b.','besttest is good bs bf')) #['be', 'bs', 'bf']
2) '\' 转译符,前面的* + ?这样的字符都有特殊含义了,如果你想就想找它的话,那就需要转译了
print(re.findall(r'\?','besttest is best????')) #['?', '?', '?', '?']
意思就是说如果你想让特殊字符失去以前的含义,那么就得给它前面加上\
3) '|' 匹配|左或|右的字符
print(re.findall(r'best|is','besttest is best')) #['best', 'is', 'best']
4)'[]' 字符集合,某些字符的集合,匹配的时候是这个集合里面的任意一个就行
print(re.findall(r'be[stacj]','besttest is best bejson betor')) #['bes', 'bes', 'bej', 'bet']
5)在[]里面如果用^的话代表取反,也就是不包括的这些字符串的
print(re.findall(r'be[^stac]','besttest is best bejson')) #['bej']
3.边界匹配
1)'^' 匹配以什么字符开头,多行情况下匹配每一行的开头
print(re.findall(r'^b','besttest is good besttest')) #['b']
print(re.findall(r'^b','besttest is good \nbesttest')) #['b']
print(re.findall(r'^b','besttest is good \nbesttest',re.M)) #['b', 'b']re.M是规则模式,从多行进行匹配
print(re.findall(r'^b','besttest is good\nbest',re.M))#多行模式 #['b','b']
2)'$' 匹配以什么字符结尾,多行情况下匹配每一行的结尾
print(re.findall(r'd$','besttest is good')) #['d']
print(re.findall(r'd$','besttest is good\nbest is good',re.M))#多行模式['d', 'd']
eg: 匹配图片文件是否合法
print(re.findall(r'\.jpgs$|\.png$|\.jpgs$','tao.jpg h.png'))#多行模式['.png']
3) '\A' 仅以什么字符开头,和^不同的是它不能用多行模式,只能匹配到一行的,即使加re.M也不好使
print(re.findall(r'\Ab','besttest is good')) #['b']
4)'\Z' 仅以什么字符结尾,和$不同的是它不能用多行模式,只能匹配到一行的,即使加re.M也不好使
print(re.findall(r'd\Z','besttest is good'))#['d']
4.预定义字符集合
1)'\d' 匹配数字0-9
print(re.findall(r'\d+','sdf2342312sdfs234324sd')) #['2342312', '234324']
print(re.findall(r'\d','sdf2342312sdfs234324sd')) #['2', '3', '4', '2', '3', '1', '2', '2', '3', '4', '3',
'2', '4']
2)'\D' 匹配非数字
print(re.findall(r'\D','sdf2342312sdfs')) #['s', 'd', 'f', 's', 'd', 'f', 's']
print(re.findall(r'\D+','sdf2342312sdfs')) #['sdf',
'sdfs']
3)'\w' 匹配[A-Za-z0-9],也就是所有的字母和数字,还有中文
print(re.findall(r'\w','sdf234%^2312sdfs&')) #['s', 'd', 'f', '2', '3', '4', '2', '3', '1', '2', 's', 'd', 'f', 's']
print(re.findall(r'\w+','sdf234%^2312sdfs&')) #['sdf234', '2312sdfs']
print(re.findall(r'\w+','sdf234%^2312sdfs&你好')) #['sdf234',
'2312sdfs', '你好']
4)'\W' 匹配不是[A-Za-z0-9],也就是不是字母和数字
print(re.findall(r'\W','sdf234%^2312sdfs&')) #['%', '^', '&']
5)'\s' 匹配空白字符、\t、\n、\r,空格
print(re.findall('\s','axss\n\tsdf\t\r\t士大夫 地方')) #['\n', '\t', '\t', '\r', '\t', ' ', ' ']
print('你\t好') #你
好
6)'\S'匹配非空白字符,不是\t、\n、\r,空格
print(re.findall('\S','axss\n\tsdf\t\r\t')) #['a', 'x', 's', 's', 's', 'd', 'f']
print(re.findall('\S+','axss\n\tsdf\t\r\t')) #['axss', 'sdf']
print("你好\r哈")
7)[A-z]大小写字母 [a-z]小写字母
print(re.findall(r'ab[cdef]','ax abd abe abf shj')) #['abd', 'abe', 'abf']
print(re.findall(r'ab[A-z]','ax
abd abe abf abF')) #['abd', 'abe', 'abf', 'abF']
5.分组匹配
1)'(...)' 分组匹配,把某些规则写成在一个组里,这样就可以直接对这个进行一些匹配了
举个例子的话,如果要匹配ip地址的话, ip地址是类似这样的192.168.5.1,每一位都是1位或者3位的数字然后后面有个点正常写的话,得这么写
print(re.findall(r'\d{1,3}.\d{1,3}.\d{1,3}.\d{1,3}',"192.168.1.3")) #['192.168.1.3']
print(re.findall(r'\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}',"192.168.1.3"))#['192.168.1.3'] \是对.进行转义
这样写的话,有点麻烦了,通过上面的我们可以发现规律,除了第一个后面的全都是'.\d{1,3}',写重复的代码就是低级的,这样的话就可以用分组了, 就把'.\d{1,3}'当做一个整体,然后让他们出现3次就ok了,可以改成下面这样的
print(re.search(r'\d{1,3}(.\d{1,3}){3}',"192.168.1.3\n192.20.22.33").group()) #192.168.1.3
print(re.search(r'\d{1,3}(.\d{1,3}){3}',"192.168.1.3\n192.20.22.33",re.M).group()) #192.168.1.3
注意只有search和match才有用到.group方法
2)findall方法
print(re.findall(r'\d{1,3}(.\d{1,3}){3}',"192.168.1.3")) #['.3']
print(re.findall(r'\d{1,3}(.\d{1,3}){3}',"192.168.1.3")) #['.3']
为啥会这样呢,用match方法和search方法都是正常的,findall方法这里有个坑, 就是如果findall方法里面有分组的话,那结果就只是分组里面的内容如果想让结果正确的话就在分组最前面写上'?:',一个问号和一个冒号就好了,启用“不捕捉模式”
print(re.findall(r'\d{1,3}(?:.\d{1,3}){3}',"192.168.1.3")) #['192.168.1.3']