re模块
一、基础知识
import re # regex
# 查找
# findall : 匹配所有 每一项都是列表中的一个元素
# ret = re.findall('\d+','sjkhk172按实际花费928') # 正则表达式,带匹配的字符串,flag
ret = re.findall('\d','sjkhk172按实际花费928') # 正则表达式,带匹配的字符串,flag
print(ret)
# search : 只匹配从左到右的第一个,得到的不是直接的结果,而是一个变量,通过这个变量的group方法来获取结果
# 如果没有匹配到,会返回None,使用group会报错
ret = re.search('\d+','sjkhk172按实际花费928')
print(ret) # 内存地址,这是一个正则匹配的结果
print(ret.group()) # 通过ret.group()获取真正的结果
ret = re.search('\d','owghabDJLBNdgv')
print(ret)
print(ret.group())
ret = re.search('\d+','sjkhk172按实际花费928')
if ret : # 内存地址,这是一个正则匹配的结果
print(ret.group()) # 通过ret.group()获取真正的结果
# match 从头开始匹配,相当于search中的正则表达式加上一个^
ret = re.match('\d+$','172sjkhk按实际花费928')
print(ret)
# 字符串处理的扩展 : 替换 切割
# split
# s = 'alex|taibai|egon|'
# print(s.split('|'))
# s = 'alex83taibai40egon25'
# ret = re.split('\d+',s)
# print(ret)
# sub # 谁 旧的 新的 替换次数
# ret = re.sub('\d+','H','alex83taibai40egon25')
ret = re.sub('\d+','H','alex83taibai40egon25',1)
print(ret)
subn 返回一个元组,第二个元素是替换的次数
ret = re.subn('\d+','H','alex83taibai40egon25')
print(ret)
# re模块的进阶 : 时间/空间 # compile 节省你使用正则表达式解决问题的时间 # 编译 正则表达式 编译成 字节码 # 在多次使用的过程中 不会多次编译 ret = re.compile('\d+') # 已经完成编译了 print(ret) res = ret.findall('alex83taibai40egon25') print(res) res = ret.search('sjkhk172按实际花费928') print(res.group()) # finditer 节省你使用正则表达式解决问题的空间/内存 ret = re.finditer('\d+','alex83taibai40egon25') for i in ret: print(i.group()) # findall 返回列表 找所有的匹配项 # search 匹配就 返回一个变量,通过group取匹配到的第一个值,不匹配就返回None,group会报错 # match 相当于search的正则表达式中加了一个'^' # spilt 返回列表,按照正则规则切割,默认匹配到的内容会被切掉 # sub/subn 替换,按照正则规则去寻找要被替换掉的内容,subn返回元组,第二个值是替换的次数 # compile 编译一个正则表达式,用这个结果去search match findall finditer 能够节省时间 # finditer 返回一个迭代器,所有的结果都在这个迭代器中,需要通过循环+group的形式取值 能够节省内存
2,分组在re模块中的使用
s = '<a>wahaha</a>' # 标签语言 html 网页 ret = re.search('<(\w+)>(\w+)</(\w+)>',s) print(ret.group()) # 所有的结果 print(ret.group(1)) # 数字参数代表的是取对应分组中的内容 print(ret.group(2)) print(ret.group(3)) #为了findall也可以顺利取到分组中的内容,有一个特殊的语法,就是优先显示分组中的内容 ret = re.findall('(\w+)',s) print(ret) ret = re.findall('>(\w+)<',s) print(ret) #取消分组优先(?:正则表达式) ret = re.findall('\d+(\.\d+)?','1.234*4') print(ret) #关于分组 #对于正则表达式来说 有些时候我们需要进行分组,来整体约束某一组字符出现的次数 #(\.[\w]+)? #对于python语言来说 分组可以帮助你更好更精准的找到你真正需要的内容 #<(\w+)>(\w+)</(\w+)> #split ret = re.split('\d+','alex83taibai40egon25') print(ret) ret = re.split('(\d+)','alex83taibai40egon25aa') print(ret) #python 和 正则表达式 之间的特殊的约定 #分组命名 (?P<这个组的名字>正则表达式) s = '<a>wahaha</a>' ret = re.search('>(?P<con>\w+)<',s) print(ret.group(1)) print(ret.group('con')) s = '<a>wahaha</a>' pattern = '<(\w+)>(\w+)</(\w+)>' ret = re.search(pattern,s) print(ret.group(1) == ret.group(3)) #使用前面的分组 要求使用这个名字的分组和前面同名分组中的内容匹配的必须一致 pattern = '<(?P<tab>\w+)>(\w+)</(?P=tab)>' ret = re.search(pattern,s) print(ret) #2018-12-06 #2018.12.6 #2018 12 06 #12:30:30
使用正则表达式的技巧
import re # ret=re.findall(r"\d+","1-2*(60+(-40.35/5)-(-4*3))") # 从"1-2*(60+(-40.35/5)-(-4*3))"中取整数 # ['1', '2', '60', '40', '35', '5', '4', '3'] # print(ret) # 你要匹配的内容太没有特点了 容易和你不想匹配的内容混在一起 # 精准的取到整数 过滤掉小数 ret=re.findall(r"\d+\.\d+|\d+","1-2*(60+(-40.35/5)-(-4*3))") print(ret) ret=re.findall(r"\d+\.\d+|(\d+)","1-2*(60+(-40.35/5)-(-4*3))") ret.remove('') print(ret)
练习:
简易爬虫爬取豆瓣电影top250
# 实现计算器 import re # 1.去括号 def remove_kuohao(expression): #expression 数式 # 去括号函数 while 1: ret = re.search(r'\([^(]*?\)',expression) #匹配 内层不再有括号的从左往有的第一个子表达式; 没有search会返回空 if ret: re_expression = ret.group() # group 一下得到表达式 ret2 = jianhua(re_expression.strip('()')) # 调用简化式子的函数 expression = expression.replace(re_expression,str(ret2)) #把式子替换为结果 continue break ret2 = jianhua(expression) return ret2 # 2,简化表达式,匹配乘除法,匹配加减法 def jianhua(re_expression): #简化数式的函数 while 1: ret = re.search(r'\d+\.*?\d*[*/]\-?\d+\.?\d*',re_expression) # 匹配乘除法 if ret: # 有就执行 chengchu_ex = ret.group() # 得到表达式.group ret2 = chengchu(chengchu_ex) # 调用乘除法函数计算 re_expression = re_expression.replace(chengchu_ex,str(ret2)) # 把表达式替换为结果 re_expression = fuhaochuli(re_expression) #调用处理符号的函数 continue break number = re.findall(r'[+\-]?\d+\.?\d*',re_expression) # 没乘除了匹配加减法 if len(number) > 1: # 有加减法 mynumber = 0 for i in number: mynumber += float(i) return mynumber else: # 没有加减法了第一项即为结果 return number[0] # 3,计算两个数乘除 def chengchu(expression): if '*'in expression: x,y = expression.split('*') return float(x)*float(y) #返回乘法运算的结果让ret2接收 if "/" in expression: x,y = expression.split('/') return float(x)/float(y) def fuhaochuli(expression): # 括号去掉乘除运算完可能会有5+-4这样的式子,需要处理 if '--'in expression: expression = expression.replace('--','+') if '++'in expression: expression = expression.replace('++','+') if '+-'in expression: expression = expression.replace("+-",'-') if '-+'in expression: expression = expression.replace('-+','-') return expression # 返回结果 ji_suan_qi = input('请输入您需要计算的数式:') # 1 - 2 * ( (60-30 +(-40/5) * (9-2*5/3 + 7 /3*99/4*2998 +10 * 568/14 )) - (-4*3)/ (16-3*2) ) new_s = ji_suan_qi.replace(' ','') # 去掉所有空格 ret = remove_kuohao(new_s) # 调用去括号函数进行下一步操作 print(ret) #2776672.6952380957 print(1 - 2 * ( (60-30 +(-40/5) * (9-2*5/3 + 7 /3*99/4*2998 +10 * 568/14 )) - (-4*3)/ (16-3*2) )) #2776672.6952380957