一 正则表达式和re模块

 1 什么叫做正则表达式:这则表达式是字符串的一种筛选规则

 2 正则表达式的好处:1,1匹配:检测字符串是否符合正则表达式的规则,否则返回False。

           1,2 切割:按照一定的规则将字符串分割成多个字符串。

           1,3替换:将字符串中的字符替换成指定的字符。

           1,4获取:获取与规则子符相符的字符: 步骤:① 将正则封装成正则;② 正则表达式和要操作的字符相关联,获得匹配对象;③ 获取正则表达式的匹配引擎;④ 通过引擎对福和规格的字符进行操作。

 正则里的一些常用操作:

  1 字符集:.(点) 匹配除换行符以外的任意字符

       \w :匹配字母,数字和下划线; \W匹配非字母,数字和下滑线

       \s:匹配任意的空白符 ; \S:匹配非空白符

       \d:匹配数字;   \D:匹配非数字

       \n:匹配一个换行符  ;\t:匹配制表符

       \b:匹配一个单词的结尾

       ^ :匹配字符串的开始位置; $:匹配字符串的结束位置

       |:匹配字符串的或  ;  ():匹配括号内的表达式,也表示是一个组,还可以取名可以控制多个字符出现的次数,只需要为想要匹配的内容进行分组。

       [...]:匹配字符组中的字符 ;[^...]:匹配非字符组中的字符。

  2 量词:  * :匹配零次到n次

       + :匹配一次到n次

       ?:匹配零次或者一次

      { }:自定义次数  {n}:n次  {n,}:n到无限次;{n,m}:n到m次

    每个量词控制着前一个字符的出现次数

  3 非贪婪匹配:

   什么是贪婪匹配:在匹配时,按照最多的匹配,能匹配多少就匹配多少。

   什么是非贪婪匹配:在匹配中,按照最少的匹配。关键字?:就是在匹配的字符后面加上?(问号),这个问号就是匹配的最少。

  4 转义符:\:将一些普通的字符加上\会有特殊的意义,同时将特殊的符号可以加上\,变成普通的字符。

    r:在字符串的前面加上r,特殊的符号也会变成字符串中的字符。

 re模块里的常用操作:

  findall:有几个就匹配几个,以列表的格式返回没有返回的内容,就会返回一个空的列表,优先匹配分组,加上?:取消优先匹配。

1
print(re.findall('\d+','432j5h52klk'))

  search:返回匹配到的第一个福和规则的字符,必须要用group来调用


1
# print(re.search('fa.','sddasfanewvgfsfang').group())

  match:只能去匹配第一个,有符合规则就返回,没有就会报错。也要用group来调用。

1
2
# print(re.match('f.','fangdsfdskjiefang').group())   #正确
# print(re.match('f.','dufdfangewfang').group())  #报错

  split:分割:以规格匹配的内容为分隔符,如果加上()分组,还会显示分割符。

1
2
# print(re.split('fang','yifangjie'))
# print(re.split('(fang)','yifangjie'))

  sub:替换:还可以指定替换的的次数

1
2
# print(re.sub('jie','fang','jiejiefangjieyi'))   #不指定次数,默认只要符合规则就替换
# print(re.sub('jie','fang','jiejiefangjieyi',2))   #指定替换词数

  subn:替换:返回符合规则的字符,同时还回替换次数。

1
# print(re.subn('jie','fang','fangjiejiefangyijei'))

  compile:将正则表达式编译,同时可以多个同时调用。

1
2
3
# ret=re.compile('\d{5}')
# print(ret.findall('dsa543545dsfrdadf452423'))
# print(ret.findall('faf32225vsdf56556354gdsd'))

  finditer:返回一个迭代器。

1
2
3
# ret=re.finditer('\d{3,7}','sdfdas1453cdsf2423423')
# for i in ret:
#     print(i.group())
posted on 2017-09-13 19:33  远去  阅读(132)  评论(0编辑  收藏  举报