re 模块

正则表达式

  • 元字符

    • \w \s \d \W \S \D \n \t
    • \b ^ $
    • |
    • ()
    • [][^]
  • 量词

    • * + ?
    • {n} {n,} {n,m}
  • 贪婪和惰性匹配

    • 默认贪婪 :尽可能多的匹配 ---回溯算法
    • 惰性匹配:尽可能少的匹配 ----量词?
    • .*?x
  • re 模块

  • findall:从文件中选取需要的内容

    • 返回一个列表,所有匹配 的项,没有匹配到就返回一个空列表

    • 如果遇到分组,finall会优先显示分组中的内容

    • (?:正则表达式)取消分组优先

    • import re
      ret = re.findall("www.(baidu|oldboy).com","www.baidu.com")
      print(ret)  #['baidu'] 这是因为findall会优先显示分组中的内容
      ret = re.findall("www.(?:baidu|oldboy).com","www.baidu.com")
      print(ret)  #['www.baidu.com']  可以同过?:取消分组的优先级
      

      (?P<组名>正则表达式) 表示个这个组起一个名

      (?P=组名)表示引用之前组的名字,引用部分匹配的内容必须和之前那个组名的内容相同

    pattern = "<(?P<tag>.*?)>.*?</(?P=tag)>"
    #pattern = r'<(.*?)>.*?</\1>'与上面用法一样
    ret = re.search(pattern,"<alex>afjsh</alex>")
    print(ret)  #<_sre.SRE_Match object; span=(0, 18), match='<alex>afjsh</alex>'>
    ret = re.search(pattern,"<alex>afjsh</egon>")
    print(ret)  #None
    
  • search: 验证用户输入内容“正则规则$”

    • 返回一个对象,通过.grop()取值
    • 没有匹配到会返回None,没有.grou()方法
      • 所以通常先判断,再取值
      • if ret:
        • ret.gout()
    • 如果遇到分组,通过索引可以去各分组的内容
    • grouo(0) #==group()永远是完整的匹配内容
  • match 验证用户输入内容

    • 与search功能类型相当于

    • `search("^\d","134afdksj") #==》match("\d","134afdksj") 作用是一样的

    • import re
      ret = re.match("\d+","213asflk32")
      if ret:
          print(ret.group())  #213
      #等同与
      ret = re.search("^\d+","213asflk32")
      if ret:
          print(ret.group())  #213
      
  • 切割split

    • 常用来

    • s1 = "alex8123egon1120boss_jin"
      ret = re.split("\d+",s1)
      print(ret)      #['alex', 'egon', 'boss_jin']
      #如果需要保留以什么进行分割的,需要用的分组
      ret = re.split("(\d+)",s1)
      print(ret)      #['alex', '8123', 'egon', '1120', 'boss_jin']
      
    • ret = re.split("[ab]","afsdabcd")
      print(ret)  #['', 'fsd', '', 'cd']这里对字符串分割了俩次,先用a分割后再用b来进行分割
      
  • 替换sub 和subn

    • #替换sub
        s = "alex|egon|boss_jin"
        print(s.replace("|","-"))   #alex-egon-boss_jin
        s1 = "alex8123egon1120boss_jin"
        ret = re.sub("\d+","-",s1)  #内部接受四个参数,可以选择替换次数,默认全部替换
        print(ret)  #alex-egon-boss_jin
        ret1 = re.subn("\d+","-",s1)
        print(ret1) #('alex-egon-boss_jin', 2) #subn会返回一个元组,显示替换后的字符串和替换次数
      
  • compile 编译正则规则,

    • 运用场景:编译正则规则,对多个字符串进行相同数据查找,节省时间,内存

    • obj = re.compile("\d{3}")  #将正则表达式编译成一个正则表达式对象,
      ret = obj.search("afskj234afjk")
      print(ret.group())  #234
      ret1 = obj.search("afs2155fahfj")
      print(ret1.group()) #215
      
  • finditer #节省空间的方法,可以和compile配合使用

    • ret = re.finditer("\d+","fsa213fajks24fjs243")
      print(ret)#<callable_iterator object at 0x000002703FFA9390>  一个迭代器
      for i in ret:
          print(i.group())    #213   24   243
      
posted @ 2018-09-11 17:27  云丛  阅读(131)  评论(0编辑  收藏  举报