python基础—正则表达式和re模块
一、正则表达式
1.正则表达式概念
概念:匹配字符串内容的一种规则
官方定义:正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。
正则表达式在线测试工具http://tool.chinaz.com/regex/
注意:正则表达式只与字符串相关
不管以后你是不是去做python开发,只要你是一个程序员就应该了解正则表达式的基本使用。如果未来你要在爬虫领域发展,你就更应该好好学习这方面的知识。 但是你要知道,re模块本质上和正则表达式没有一毛钱的关系。re模块和正则表达式的关系 类似于 time模块和时间的关系 你没有学习python之前,也不知道有一个time模块,但是你已经认识时间了 12:30就表示中午十二点半(这个时间可好,一般这会儿就该下课了)。 时间有自己的格式,年月日时分秒,12个月,365天......已经成为了一种规则。你也早就牢记于心了。time模块只不过是python提供给我们的可以方便我们操作时间的一个工具而已
2.正则表达式的规则:
字符组:
[] 描述的是一个字符位置上的内容规则(更灵活)
字符组 : [字符组] 在同一个位置可能出现的各种字符组成了一个字符组,在正则表达式中用[]表示 字符分为很多类,比如数字、字母、标点等等。 假如你现在要求一个位置"只能出现一个数字",那么这个位置上的字符只能是0、1、2...9这10个数之一。
注意点:
[0-9],[5-9],[a-z],[A-Z]不能从大到小规定范围,
字符组内所有的范围是根据ascii码来确定的
字符组中,-是有特殊意义的,取消特殊意义,需要使用\转义
非字符组:
[^] 匹配非括号内的所有内容
如:[^123]:匹配非数字123的所有
元字符:
元字符 |
匹配内容 |
. | 匹配除换行符以外的任意字符 |
\w | 匹配字母或数字或下划线 |
\s | 匹配任意的空白符 |
\d | 匹配数字 |
\n | 匹配一个换行符 |
\t | 匹配一个制表符 |
\b | 匹配一个单词的结尾 |
^ | 匹配字符串的开始 |
$ | 匹配字符串的结尾 |
\W |
匹配非字母或数字或下划线 |
\D |
匹配非数字 |
\S |
匹配非空白符 |
a|b |
匹配字符a或字符b |
() |
匹配括号内的表达式,也表示一个组 |
[...] |
匹配字符组中的字符 |
[^...] |
匹配除了字符组中字符的所有字符 |
量词:
量词 |
用法说明 |
* | 重复零次或更多次 |
+ | 重复一次或更多次 |
? | 重复零次或一次 |
{n} | 重复n次 |
{n,} | 重复n次或更多次 |
{n,m} | 重复n到m次 |
分组 () 和 或 |
如:www\.(baidu|oldboy)\.com
分组 ()
使用场景:
- 一组内容,需要整体约束出现次数的时候。
- 在和 " | " 连用的时候,前后固定,中间位置二选一。
正则 | 待匹配字符 | 匹配 结果 |
说明 |
^[1-9]\d{13,16}[0-9x]$ | 110101198001017032 |
110101198001017032 |
表示可以匹配一个正确的身份证号 |
^[1-9]\d{13,16}[0-9x]$ | 1101011980010170 |
1101011980010170 |
表示也可以匹配这串数字,但这并不是一个正确的身份证号码,它是一个16位的数字 |
^[1-9]\d{14}(\d{2}[0-9x])?$ | 1101011980010170 |
False |
现在不会匹配错误的身份证号了 |
^([1-9]\d{16}[0-9x]|[1-9]\d{14})$ | 110105199812067023 |
110105199812067023 |
表示先匹配[1-9]\d{16}[0-9x]如果没有匹配上就匹配[1-9]\d{14} |
3.贪婪与非贪婪匹配
贪婪匹配
在满足匹配时,匹配尽可能长的字符串,默认情况下,采用贪婪匹配
贪婪匹配:比如匹配 a.*x
- 利用的是回溯算法:从a开始匹配,一直匹配任意字符,无论是否为x,匹配完所有字符后,发现 * 后面有个x,又回过头来找x,找到x就立即停止。
待匹配字符 | 匹配 结果 |
说明 | |
<.*> |
<script>...<script> |
<script>...<script> |
默认为贪婪匹配模式,会匹配尽量长的字符串 |
<.*?> | r'\d' |
<script> |
加上?为将贪婪匹配模式转为非贪婪匹配模式,会匹配尽量短的字符串 |
非贪婪匹配
在满足匹配时,匹配尽可能少的字符串,需要在量词后面使用问号。
非贪婪匹配:a.*?x
- 从a开始匹配,匹配任意长度字符,?的作用是时刻检查下一个字符是否为x,如果是x则立马停止。
几个常用的非贪婪匹配pattern
*? 重复任意次,但尽可能少重复 +? 重复1次或更多次,但尽可能少重复 ?? 重复0次或1次,但尽可能少重复 {n,m}? 重复n到m次,但尽可能少重复 {n,}? 重复n次以上,但尽可能少重复
.*?的用法
. 是任意字符 * 是取 0 至 无限长度 ? 是非贪婪模式。 何在一起就是 取尽量少的任意字符,一般不会这么单独写,他大多用在: .*?x 就是取前面任意长度的字符,直到一个x出现
4.转义符 \
在正则表达式中,有很多有特殊意义的是元字符,比如\n和\s等,如果要在正则中匹配正常的"\n"而不是"换行符"就需要对"\"进行转义,变成'\\'。
在python中,无论是正则表达式,还是待匹配的内容,都是以字符串的形式出现的,在字符串中\也有特殊的含义,本身还需要转义。所以如果匹配一次"\n",字符串中要写成'\\n',那么正则里就要写成"\\\\n",这样就太麻烦了。这个时候我们就用到了r'\n'这个概念,此时的正则是r'\\n'就可以了。
正则 | 待匹配字符 | 匹配 结果 |
说明 |
\n | \n | False |
因为在正则表达式中\是有特殊意义的字符,所以要匹配\n本身,用表达式\n无法匹配 |
\\n | \n | True |
转义\之后变成\\,即可匹配 |
"\\\\n" | '\\n' | True |
如果在python中,字符串中的'\'也需要转义,所以每一个字符串'\'又需要转义一次 |
r'\\n' | r'\n' | True |
在字符串之前加r,让整个字符串不转义 |
二、re模块
re模块作用:python中用来帮助我们根据正则规则从一段内容中查找结果的工具
1.re模块常用方法
- re.findall(regex,str): 找到所有满足规则的内容
- re.search(regex,str): 找到满足条件的第一个,返回一个结果对象,找不到返回None。返回值:<re.Match object; span=(4, 7), match='123'>:span是找到内容的索引,前开后闭返回值存在的情况下:用.group()获取他的值,不存在的情况.group()方法会报错
- re.match(regex,str): 从开头找满足规则的第一个内容,返回一个结果对象,找不到返回None。(很少用,能被search取代)返回值:<re.Match object; span=(4, 7), match='123'>:span是找到内容的索引,前开后闭返回值存在的情况下:用.group()获取他的值,不存在的情况.group()方法会报错
- re.compile(regex): 返回一个编译之后的对象,该对象有几个方法:
- .findall(str, flag)
- .finditer(str, flag)
- .search(str, flag)
flags有很多可选值: re.I(IGNORECASE)忽略大小写,括号内是完整的写法 re.M(MULTILINE)多行模式,改变^和$的行为 re.S(DOTALL)点可以匹配任意字符,包括换行符 re.L(LOCALE)做本地化识别的匹配,表示特殊字符集 \w, \W, \b, \B, \s, \S 依赖于当前环境,不推荐使用 re.U(UNICODE) 使用\w \W \s \S \d \D使用取决于unicode定义的字符属性。在python3中默认使用该flag re.X(VERBOSE)冗长模式,该模式下pattern字符串可以是多行的,忽略空白字符,并可以添加注释
-
re.finditer(regex,str): 返回一个迭代器,存储了所有'结果对象',遍历后迭代器获得每一个结果对象,对每个结果对象使用.group()方法取值
-
re.sub(regex,new,str): 返回一个替换后的字符串
-
re.subn(regex,new,str): 返回替换后的字符串,和替换的次数
-
re.split(regex,str): 返回一个列表,根据正则匹配内容分割。
import re ret = re.findall('a', 'eva egon yuan') # 返回所有满足匹配条件的结果,放在列表里 print(ret) #结果 : ['a', 'a'] ret = re.search('a', 'eva egon yuan').group() print(ret) #结果 : 'a' # 函数会在字符串内查找模式匹配,只到找到第一个匹配然后返回一个包含匹配信息的对象,该对象可以 # 通过调用group()方法得到匹配的字符串,如果字符串没有匹配,则返回None。 ret = re.match('a', 'abc').group() # 同search,不过尽在字符串开始处进行匹配 print(ret) #结果 : 'a' ret = re.split('[ab]', 'abcd') # 先按'a'分割得到''和'bcd',在对''和'bcd'分别按'b'分割 print(ret) # ['', '', 'cd'] ret = re.sub('\d', 'H', 'eva3egon4yuan4', 1)#将数字替换成'H',参数1表示只替换1个 print(ret) #evaHegon4yuan4 ret = re.subn('\d', 'H', 'eva3egon4yuan4')#将数字替换成'H',返回元组(替换的结果,替换了多少次) print(ret) ''' 节省时间角度上 # re.compile() 预编译 # 参数:pattern,flags 使用原因:re.findall('\d+','asdfasd2131') 每次findall计算机都需要去解析'\d+',如果有n个待匹配的字符串,那就需要计算机解析n次'\d+',这个时候我们需要将'\d+'这个正则规则进行预编译,在以后每次查找时,直接拿已经编译后的代码,可以节省大量程序执行的‘时间’。 ''' obj = re.compile('\d{3}') #将正则表达式编译成为一个 正则表达式对象,规则要匹配的是3个数字 ret = obj.search('abc123eeee') #正则表达式对象调用search,参数为待匹配的字符串 print(ret.group()) #结果 : 123 ''' 节省空间上 # re.finditer() 返回一个存储了'结果对象'的迭代器,取值的时候需要遍历后在对每个结果对象使用.group()方法 当使用findall找到的结果数量巨大的时候,返回的结果会很占用内存,这个时候我们就需要使用finditer ''' import re ret = re.finditer('\d', 'ds3sy4784a') #finditer返回一个存放匹配结果的迭代器 print(ret) # <callable_iterator object at 0x10195f940> print(next(ret).group()) #查看第一个结果 print(next(ret).group()) #查看第二个结果 print([i.group() for i in ret]) #查看剩余的左右结果
re方法小结
''' re方法总结: 匹配: findall search match 返回结果对象,用.group()取值 字符串的其他处理:不常用 替换 分割 进阶: 时间上:使用compile预编译,能够提前编译一个正则表达式,当同一个正则需要多次使用的时候,可以节省时间。 空间上:使用finditer返回一个迭代器,里面是一个一个结果结果对象,通过对结果对象.group取到每个值 '''
2.re模块的使用
分组在正则表达式中的使用
1.分组在findall当中默认会优先显示出来
2.在分组中开始加上 ?: 可以取消分组优先的设定
在爬虫\数据清洗的过程中最常用的正则表达式操作
s = ''' <h1>hahaha</h1> <h2>wahaha</h2> <title>qqxing</title> ''' '>(\w+)<' ret = re.findall('>(\w+)<',s) print(ret) # findall永远优先显示分组中的内容 # ['hahaha', 'wahaha', 'qqxing'] # 分组优先显示会遇到如下问题:找到所有数字,会把括号内优先返回,导致提取信息不符要求 ret = re.findall('\d+(\.\d+)?','1.23+2.34') print(ret) # ['.23', '.34'] ''' 取消分组优先 在不想分组的括号开头加上 ?: 可以取消分组优先显示的问题 ''' ret = re.findall('\d+(?:\.\d+)?','1.23+2.34') print(ret) # ['1.23', '2.34']
split和分组:
如果被用来分割的内容在分组中,则保留这个内容。
ret=re.split("\d+","eva3egon4yuan") print(ret) #结果 : ['eva', 'egon', 'yuan'] ret=re.split("(\d+)","eva3egon4yuan") print(ret) #结果 : ['eva', '3', 'egon', '4', 'yuan'] #在匹配部分加上()之后所切出的结果是不同的, #没有()的没有保留所匹配的项,但是有()的却能够保留了匹配的项, #这个在某些需要保留匹配部分的使用过程是非常重要的。
search和分组:
search返回的结果不收分组的影响,但是可以通过序号索引分组内容,0代表所有组,1代表第一组,一次顺延
ret = re.search(r'<(\w+)>(\w+)</(\w+)>',r'<title>qqxing</title>') print(ret.group()) # 不写默认是0,取全部 print(ret.group(1)) print(ret.group(2))
分组小结:
findall: 优先显示分组中的内容
split: 保留在分组中的分割符内容
search: 可以通过.group()索引分组内容的值
取消分组优先:(?:正则)
分组命名
在分组括号前输入:?P<名称> 就可为分组命名。
ret = re.search('<(?P<tag>\w+)>.*</(?P<content>\w+)>','<title>hahaha</title>') print(ret.group(0)) # 不受分组影响 print(ret.group('tag')) # 不受分组的影响 print(ret.group('content')) # 不受分组影响
特殊的要求:网页中我们需要匹配成对的标签
s = '<h1>wahaha</h2></h2></h3>' ret = re.search('<(?P<tag>\w+)>.*</(?P=tag)>','<h1>wahaha</h2></h1></h3>') print(ret.group()) ret = re.search(r'<(?P<tag>\w+)>.*</\1>','<h1>wahaha</h2></h1></h3>') print(ret.group())
使用匹配的tips:
当我们需要匹配的内容混在不相匹配内容中
只能把不想要匹配的东西也匹配出来,然后去掉不想要的,就可以拿到想要的内容。
3.练习扩展
1.匹配标签
import re ret = re.search("<(?P<tag_name>\w+)>\w+</(?P=tag_name)>","<h1>hello</h1>") #还可以在分组中利用?<name>的形式给分组起名字 #获取的匹配结果可以直接用group('名字')拿到对应的值 print(ret.group('tag_name')) #结果 :h1 print(ret.group()) #结果 :<h1>hello</h1> ret = re.search(r"<(\w+)>\w+</\1>","<h1>hello</h1>") #如果不给组起名字,也可以用\序号来找到对应的组,表示要找的内容和前面的组内容一致 #获取的匹配结果可以直接用group(序号)拿到对应的值 print(ret.group(1)) print(ret.group()) #结果 :<h1>hello</h1>
2.匹配整数
import re ret=re.findall(r"\d+","1-2*(60+(-40.35/5)-(-4*3))") print(ret) #['1', '2', '60', '40', '35', '5', '4', '3'] ret=re.findall(r"-?\d+\.\d*|(-?\d+)","1-2*(60+(-40.35/5)-(-4*3))") print(ret) #['1', '-2', '60', '', '5', '-4', '3'] ret.remove("") print(ret) #['1', '-2', '60', '5', '-4', '3']
3.匹配数字
1、 匹配一段文本中的每行的邮箱 http://blog.csdn.net/make164492212/article/details/51656638 2、 匹配一段文本中的每行的时间字符串,比如:‘1990-07-12’; 分别取出1年的12个月(^(0?[1-9]|1[0-2])$)、 一个月的31天:^((0?[1-9])|((1|2)[0-9])|30|31)$ 3、 匹配qq号。(腾讯QQ号从10000开始) [1,9][0,9]{4,} 4、 匹配一个浮点数。 ^(-?\d+)(\.\d+)?$ 或者 -?\d+\.?\d* 5、 匹配汉字。 ^[\u4e00-\u9fa5]{0,}$ 6、 匹配出所有整数
3.爬虫练习
import requests import re import json def getPage(url): response=requests.get(url) return response.text def parsePage(s): com=re.compile('<div class="item">.*?<div class="pic">.*?<em .*?>(?P<id>\d+).*?<span class="title">(?P<title>.*?)</span>' '.*?<span class="rating_num" .*?>(?P<rating_num>.*?)</span>.*?<span>(?P<comment_num>.*?)评价</span>',re.S) ret=com.finditer(s) for i in ret: yield { "id":i.group("id"), "title":i.group("title"), "rating_num":i.group("rating_num"), "comment_num":i.group("comment_num"), } def main(num): url='https://movie.douban.com/top250?start=%s&filter='%num response_html=getPage(url) ret=parsePage(response_html) print(ret) f=open("move_info7","a",encoding="utf8") for obj in ret: print(obj) data=json.dumps(obj,ensure_ascii=False) f.write(data+"\n") if __name__ == '__main__': count=0 for i in range(10): main(count) count+=25
import re import json from urllib.request import urlopen def getPage(url): response = urlopen(url) return response.read().decode('utf-8') def parsePage(s): com = re.compile( '<div class="item">.*?<div class="pic">.*?<em .*?>(?P<id>\d+).*?<span class="title">(?P<title>.*?)</span>' '.*?<span class="rating_num" .*?>(?P<rating_num>.*?)</span>.*?<span>(?P<comment_num>.*?)评价</span>', re.S) ret = com.finditer(s) for i in ret: yield { "id": i.group("id"), "title": i.group("title"), "rating_num": i.group("rating_num"), "comment_num": i.group("comment_num"), } def main(num): url = 'https://movie.douban.com/top250?start=%s&filter=' % num response_html = getPage(url) ret = parsePage(response_html) print(ret) f = open("move_info7", "a", encoding="utf8") for obj in ret: print(obj) data = str(obj) f.write(data + "\n") count = 0 for i in range(10): main(count) count += 25 简化版
flags有很多可选值: re.I(IGNORECASE)忽略大小写,括号内是完整的写法 re.M(MULTILINE)多行模式,改变^和$的行为 re.S(DOTALL)点可以匹配任意字符,包括换行符 re.L(LOCALE)做本地化识别的匹配,表示特殊字符集 \w, \W, \b, \B, \s, \S 依赖于当前环境,不推荐使用 re.U(UNICODE) 使用\w \W \s \S \d \D使用取决于unicode定义的字符属性。在python3中默认使用该flag re.X(VERBOSE)冗长模式,该模式下pattern字符串可以是多行的,忽略空白字符,并可以添加注释
作业
实现能计算类似
1 - 2 * ( (60-30 +(-40/5) * (9-2*5/3 + 7 /3*99/4*2998 +10 * 568/14 )) - (-4*3)/ (16-3*2) )等类似公式的计算器程序