re正则模块

import re


# . ^ $ * + ? { } [ ] | ( ) \ 元字符
# " . " 通配符
re.findall('a..x','assxfsdf')   #一个匹配  ['assx']
re.findall('a..x','assxbasdxds')  #多个匹配   ['assx', 'asdx']
re.findall('a..x','asaxfxdf')  #交差匹配  ['asax']
re.findall('a..x','asaasdasd')  #无  []

# " ^ " 以....字符串开头，" ^ "不能放在re开头
re.findall('^a..x','assxfsdf')   #一个匹配  ['assx']
re.findall('^a..x','assxbasdxds')  #多个匹配   ['assx']
re.findall('^a..x','bassxbasdxds')  #无  []
re.findall('^a..x','asaasdasd')  #无  []

#" $ "  以....字符串结尾
re.findall('a..x$','assxfsdf')   #  []
re.findall('a..x$','assxbasdadsx')  #   ['adsx']
re.findall('a..x$','assxbasdadsx$')  #   []

# " * "  代表0-无穷次其前面的字符个数
re.findall('d*','dasdddasd')  # ['d', '', '', 'ddd', '', '', 'd', ''] 为啥最后多了一位
re.findall('alex*','dalesdalexxsdale')  # ['ale', 'alexx', 'ale']

# " + "  代表1-无穷次其前面的字符个数
re.findall('d+','dasdddasd')  # ['d', 'ddd', 'd']  贪婪匹配：按最多次的匹配来返回
re.findall('alex+','dalesdalexxsd')  # ['alexx']

# " ? "  代表0或1次其前面的字符个数
re.findall('d?','dasdddasd')  # ['d', '', '', 'd', 'd', 'd', '', '', 'd', '']  最后还是多了一位
re.findall('alex?','dalesdalexxsdale')  # ['ale', 'alex', 'ale']

# " {} "  {0,}==*   {1,}==+    {0,1}==?   可认为控制重复的次数
re.findall('d{1}','dasdddasd')  # ['d', 'd', 'd', 'd', 'd']
re.findall('d{0}','dasdddasd')  # ['', '', '', '', '', '', '', '', '', ''] 还是多了一位
re.findall('d{0,3}','dasdddasd')  # ['d', '', '', 'ddd', '', '', 'd', ''] 还是多了一位
re.findall('d{1,3}','dasdddasd')  # ['d', 'ddd', 'd']
re.findall('alex?','dalesdalexxsdale')  # ['ale', 'alex', 'ale']

# 加一个? " ? " 把贪婪匹配转换为惰性匹配，按最小次匹配
re.findall('d+?','dasdddasd')  # ['d', 'd', 'd', 'd', 'd']
re.findall('d*?','daddsd')  # ['', 'd', '', '', 'd', '', 'd', '', '', 'd', ''] 没搞懂这个
re.findall('alex*?','dalesdalexxsdale')  # ['ale', 'ale', 'ale']
re.findall('alex+?','dalesdalexxsdale')  # ['alex']


#  " [] " 字符集   或的意思
re.findall("x[yz]","xyzxz")  # ['xy', 'xz']
re.findall("x[yz]p","xypzxzpxz")  # ['xyp', 'xzp']
re.findall("x[yz]p?","xypzxzpxz")  # ['xyp', 'xzp', 'xz']
re.findall("x[y,z]p?","xypzxzpx,z")  # ['xyp', 'xzp', 'x,']  , 逗号只是普通字符
re.findall('x[y*z]','xyx*xzjkx') # ['xy', 'x*', 'xz'] 字符集[]中间的都是普通字符
re.findall('x[a-z]','xyx*xzjkx') # ['xy', 'xz']   - 横杠代表的是范围，特殊字符
re.findall('x[a-z*]','xyx*xzjkx') # ['xy', 'x*', 'xz']
re.findall('x[a-z]*','xyx*xzjkx') # ['xyx', 'xzjkx']
re.findall('x[^a-z]*','xZx*x9jkx!xAWExa7,,xz9x99x')
# ['xZ', 'x*', 'x9', 'x!', 'xAWE', 'x', 'x', 'x99', 'x'] " ^ " 尖角代表的是非，非a-z，特殊字符
re.findall('x[^a-z]','xZx*x9jkx!xAWE9x99x') # ['xZ', 'x*', 'x9', 'x!', 'xA', 'x9']

#小练习，如何取出12+(34*6+2-5*(2-1))里面的(2-1)?
re.findall('\([^()]*\)','12+(34*6+2-5*(2-1))')   #  ['(2-1)'] ， \反斜杠，转义字符。也是字符集里面的第3个特殊字符

# " \ " 反斜杠转义字符，可以让有意义变成没意义，没意义变成有意义
# 反斜杠后边跟元字符去除特殊功能,比如\.
# 反斜杠后边跟普通字符实现特殊功能,比如\d
# \d  匹配任何十进制数；它相当于类 [0-9]。
# \D 匹配任何非数字字符；它相当于类 [^0-9]。
# \s  匹配任何空白字符；它相当于类 [ \t\n\r\f\v]。
# \S 匹配任何非空白字符；它相当于类 [^ \t\n\r\f\v]。
# \w 匹配任何字母数字字符；它相当于类 [a-zA-Z0-9_]。
# \W 匹配任何非字母数字字符；它相当于类 [^a-zA-Z0-9_]
# \b  匹配一个特殊字符边界，比如空格 ，&，＃等
re.findall('\d','12+(34*6+2-5*(2-1))')  # ['1', '2', '3', '4', '6', '2', '5', '2', '1']
re.findall('\d+','12+(34*6+2-5*(2-1))')  # ['12', '34', '6', '2', '5', '2', '1']
re.findall('[0-9]+','12+(34*6+2-5*(2-1))')  # ['12', '34', '6', '2', '5', '2', '1']

re.findall('\D','12+(34*6+2-5*(2-1))')  # ['+', '(', '*', '+', '-', '*', '(', '-', ')', ')']
re.findall('\D+','12+(34*6+2-5*(2-1))')  # ['+(', '*', '+', '-', '*(', '-', '))']
re.findall('[^0-9]+','12+(34*6+2-5*(2-1))')  # ['+(', '*', '+', '-', '*(', '-', '))']

re.findall('\s','hello world') # [' ']
re.findall('\S+','hello world') #['hello', 'world']

re.findall('\w+','hello   world 333 _') # ['hello', 'world', '333', '_']
re.findall('\W+','hello   world 333 _') # ['   ', ' ', ' ']

re.findall('www.baidu','www.baidu') # ['www.baidu']
re.findall('www.baidu','www(baidu') # ['www(baidu']
re.findall('www\.baidu','www.baidu') # ['www.baidu']
re.findall('www\.baidu','www(baidu') # []
re.findall('www*baidu','www*baidu') # []
re.findall('www\*baidu','www*baidu') # ['www*baidu']

re.findall('I','hello I am LIST')  # ['I', 'I']
re.findall('^I','hello I am LIST') # []
re.findall('I\b','hello I am LIST') # []  为什么没成功？因为在python中\b就已经被赋予特殊含义了，所以在执行的时候，\b被python优先赋予了特殊意义
re.findall(r'I\b','hello I am LIST') # ['I'] r：raw string 原生字符串，加了r之后，\b就不是python的特殊含义了，而是re语言中的特殊含义
re.findall('I\\b','hello I am LIST')  # ['I']  在python中，"\"也是转义字符，但python会把"\\"翻译成一个没有任何特殊意义的\字符，所以\b也就能被re语言使用了
re.findall('c\\f','abc\ferwt') # ['c\x0c']  传给re语言的是\f，显然在re语言中，\f并没有特殊的含义，所以能够匹配成功，但是对于\f这个返回值，python对它再进行了一次加工
re.findall('c\l','abc\lerwt') #  为什么我报错，老师的能运行？
re.findall('c\\l','abc\lerwt') #  为什么我报错，老师的能运行？
re.findall('c\\\l','abc\lerwt') # ['c\\l'] 三个\\\也可以，但是这个知识点太细了，暂时跳过
re.findall('c\\\\l','abc\lerwt') # ['c\\l']  在python层面，4个\\\\就被翻译成无意义的两个\\字符，再传递给re语言就变成一个无意义的\
re.findall(r'c\\l','abc\lerwt') # ['c\\l'] 和上面这个一样的理解
                                # 至于为什么传回来的是两个\\，因为python解释器对其进行了处理
                                # 所以，可以简单记忆，当re要使用一个\的时候，你需要通过python给它传过去2个\\
                                # 当re需要使用2个\\的时候（去匹配\字符的时候），你就要通过python给它传过去4个\\\\
# 问题来了！
re.findall('www.baidu', 'www,baidu')  # ['www,baidu'] 这个简单，可以理解，看下面
re.findall('www\.baidu', 'www,baidu')  # [] 为什么返回空？python层面，转义字符是不会传给re的，所以re收到的还是www.baidu,按理说，就可以匹配上www,baidu
                                # 自己的强行解释，当re需要使用类似于\w,\d这种的时候，或者要实际去匹配\这个字符的时候，可以按照两层传递的逻辑去思考
                                # 当不是这两种情况的时候，就不要考虑两层了！！！！




# " | "  管道符，代表或
re.findall(r'aa|b','abaaab') # ['b', 'aa', 'b']


# " () "  分组符
re.findall('abc','abcabcabcabc') # ['abc', 'abc', 'abc', 'abc']
re.findall('(abc)','abcabcabcabc') # ['abc', 'abc', 'abc', 'abc']
re.findall('(abc)*','abcabcabcabc') # ['abc', '']
re.findall('(abc)+','abcabcabcabc') # ['abc']  这是因为优先级的问题，在使用()的时候，匹配上之后，python会只返回()里面的内容
re.findall('(?:abc)*','abcabcabcabc') # ['abcabcabcabc', '']  使用?:组合来去掉re模块()的这种优先级设置
re.findall('(?:abc)+','abcabcabcabc') # ['abcabcabcabc']  使用?:组合来去掉re模块()的这种优先级设置
re.findall('(abc)?','abcabcabcabc') # ['abc', 'abc', 'abc', 'abc', '']
re.findall('(abc)+','abccc') # ['abc']
re.findall('abc+','abccc') # ['abccc']
re.findall('www\.(baidu|163)\.com','www.baidu.com')   #  ['baidu']  分组符()的优先级太高，所以在能够匹配的情况下，只返回这个，这个和上面那个(abc)+的理解是一样的
re.findall('www\.(baidu|163)\.com','www.163.com')    #  ['163']
re.findall('www\.(baidu|163)\.com','123dsdqwww.163.comwe12r')   #   ['163']
re.findall('www\.(baidu|163)\.com','weeerww.163.cwweomwe12r')   #  []  不能匹配，就返回空
re.findall('www\.(?:baidu|163)\.com','123dsdqwww.163.comwe12r')   # ['www.163.com']   ?:可以去优先级
re.findall('a(bc)|(nm)y','nmy') # [('', 'nm')]  #分组符与其它符号一起用的时候，会涉及到优先级的问题。。。不太会
re.findall('a(bc)|(nm)y','abcy') # [('bc', '')]
re.findall('a(bc)|(nm)y','abcnmy') # [('bc', ''), ('', 'nm')]


#  第2种方法 search
re.search('\d+','jiang2132zong34') # <re.Match object; span=(5, 9), match='2132'> search只会匹配第一个，而且返回一个对象
re.search('\d{5}','jiang2132zong34') # 如果匹配不成功，则返回None，而不会返回一个空列表
re.search('\d+','jiang2132zong34').group() # '2132',用对象下面的group方法来调用其中的匹配值
re.search('(?P<name>[a-z]+)','jiang25zong33you18').group() # 'jiang'  固定用法，给匹配的值加上name的标签
re.search('(?P<name>[a-z]+)(?P<age>\d+)','jiang25zong33you18').group() # 'jiang25'
re.search('(?P<name>[a-z]+)(?P<age>\d+)','jiang25zong33you18').group('name') # 'jiang'
re.search('(?P<name>[a-z]+)(?P<age>\d+)','jiang25zong33you18').group('age') # '25'

#  第3种方法 match  只会从开头匹配.所以不常用，search完全可以取代match
re.match('\d+','12asd12ad') #   <re.Match object; span=(0, 2), match='12'>
re.match('\d+','12asd12ad').group() #   '12'


#  第4种方法 split， 分割并返回元祖
re.split(' ','hello world !')     #  ['hello', 'world', '!']
re.split('[ |]','hello world|!')  #  ['hello', 'world', '!']
re.split('[ab]','abc')            #  ['', '', 'c']  返回的列表中并不会包含用于分割的元素
re.split('a|b','abc')             #  ['', '', 'c']  返回的列表中并不会包含用于分割的元素
re.split('(ab)','abc')            #  ['', 'ab', 'c']  例外的是，如果使用字符集()用于分割，那么这个元素就会被返回
re.split('[ab]','asdabcd')        #  ['', 'sd', '', 'cd']
re.split('(ab)','asdabcd')        #  ['asd', 'ab', 'cd']
re.split('(ab)','asdabcdabcccabccc',maxsplit=2)        #  ['asd', 'ab', 'cd', 'ab', 'cccabccc']
re.split('(ab)','asdabcdabcccabccc',2)                 #  ['asd', 'ab', 'cd', 'ab', 'cccabccc']


#  第5种方法 sub， 替换并返回字符串
re.sub('\d','_','asd23j23jl32j4kj32k4jlk32j546kl')    # 'asd__j__jl__j_kj__k_jlk__j___kl'
re.sub('\d+','_','asd23j23jl32j4kj32k4jlk32j546kl')   # 'asd_j_jl_j_kj_k_jlk_j_kl'
re.sub('\d+','_','asd23j23jl32j4kj32k4jlk32j546kl',3)   # 'asd_j_jl_j4kj32k4jlk32j546kl'

#  第6种方法 subn， 替换并返回元祖（返回的字符串+匹配的次数）
re.subn('\d','_','asd23j23jl32j4kj32k4jlk32j546kl')    # ('asd__j__jl__j_kj__k_jlk__j___kl', 15)

#  第7种方法 finditer，非常重要， 和findall的不同就是，将匹配的数据存到一个迭代器里面，在处理大数据的时候，非常节约内存
re.findall('\d+','12k3e4k5j')  #  ['12', '3', '4', '5']
re.finditer('\d+','12k3e4k5j')  # <callable_iterator object at 0x0000022137C3D160>
re_iter = re.finditer('\d+','12k3e4k5j')
next(re_iter)  #  <re.Match object; span=(0, 2), match='12'>
next(re_iter).group()  #  '3'
next(re_iter).group()  #  '4'
next(re_iter).group()  #  '5'
next(re_iter).group()  #  StopIteration

# 特殊的一种方法，编译，compile
com=re.compile('\d+')
com.findall('asd123jkl35')  # ['123', '35']


学习笔记为自己根据网络视频整理，侵必删
posted @ 2019-08-13 11:03 渱尘阅读(212) 评论(0) 编辑收藏举报
会员力量，点亮园子希望
刷新页面返回顶部
红虾

re正则模块

公告