re 模块

正则表达式

元字符
- \w \s \d \W \S \D \n \t
- \b ^ $
- |
- ()
- [][^]
量词
- * + ?
- {n} {n,} {n,m}
贪婪和惰性匹配
- 默认贪婪：尽可能多的匹配 ---回溯算法
- 惰性匹配：尽可能少的匹配 ----量词？
- .*?x
re 模块

findall：从文件中选取需要的内容

返回一个列表，所有匹配的项，没有匹配到就返回一个空列表
如果遇到分组，finall会优先显示分组中的内容
（？：正则表达式）取消分组优先

import re
ret = re.findall("www.(baidu|oldboy).com","www.baidu.com")
print(ret)  #['baidu'] 这是因为findall会优先显示分组中的内容
ret = re.findall("www.(?:baidu|oldboy).com","www.baidu.com")
print(ret)  #['www.baidu.com']  可以同过?:取消分组的优先级

(?P<组名>正则表达式) 表示个这个组起一个名

(?P=组名)表示引用之前组的名字，引用部分匹配的内容必须和之前那个组名的内容相同

pattern = "<(?P<tag>.*?)>.*?</(?P=tag)>"
#pattern = r'<(.*?)>.*?</\1>'与上面用法一样
ret = re.search(pattern,"<alex>afjsh</alex>")
print(ret)  #<_sre.SRE_Match object; span=(0, 18), match='<alex>afjsh</alex>'>
ret = re.search(pattern,"<alex>afjsh</egon>")
print(ret)  #None

search: 验证用户输入内容“正则规则$”
- 返回一个对象，通过.grop()取值
- 没有匹配到会返回None，没有.grou()方法
  - 所以通常先判断，再取值
  - if ret:
    - ret.gout()
- 如果遇到分组，通过索引可以去各分组的内容
- grouo(0) #==group()永远是完整的匹配内容

match 验证用户输入内容

与search功能类型相当于
`search("^\d","134afdksj") #==》match("\d","134afdksj") 作用是一样的

import re
ret = re.match("\d+","213asflk32")
if ret:
    print(ret.group())  #213
#等同与
ret = re.search("^\d+","213asflk32")
if ret:
    print(ret.group())  #213

切割split

常用来

s1 = "alex8123egon1120boss_jin"
ret = re.split("\d+",s1)
print(ret)      #['alex', 'egon', 'boss_jin']
#如果需要保留以什么进行分割的，需要用的分组
ret = re.split("(\d+)",s1)
print(ret)      #['alex', '8123', 'egon', '1120', 'boss_jin']

ret = re.split("[ab]","afsdabcd")
print(ret)  #['', 'fsd', '', 'cd']这里对字符串分割了俩次，先用a分割后再用b来进行分割

替换sub 和subn

#替换sub
  s = "alex|egon|boss_jin"
  print(s.replace("|","-"))   #alex-egon-boss_jin
  s1 = "alex8123egon1120boss_jin"
  ret = re.sub("\d+","-",s1)  #内部接受四个参数,可以选择替换次数,默认全部替换
  print(ret)  #alex-egon-boss_jin
  ret1 = re.subn("\d+","-",s1)
  print(ret1) #('alex-egon-boss_jin', 2) #subn会返回一个元组，显示替换后的字符串和替换次数

compile 编译正则规则，

运用场景：编译正则规则，对多个字符串进行相同数据查找，节省时间，内存

obj = re.compile("\d{3}")  #将正则表达式编译成一个正则表达式对象，
ret = obj.search("afskj234afjk")
print(ret.group())  #234
ret1 = obj.search("afs2155fahfj")
print(ret1.group()) #215

finditer #节省空间的方法，可以和compile配合使用

ret = re.finditer("\d+","fsa213fajks24fjs243")
print(ret)#<callable_iterator object at 0x000002703FFA9390>  一个迭代器
for i in ret:
    print(i.group())    #213   24   243

posted @ 2018-09-11 17:27 云丛阅读(147) 评论(0) 收藏举报

云丛

落霞与孤鹜齐飞,秋水共长天一色.

re 模块

正则表达式

贪婪和惰性匹配

re 模块

公告