python中的re模块

正则表达式有很多很多，我在这边只列出比较常用的表达式，几乎涵盖了90%的正则表达式的使用场所，正则表达式一般式在python爬虫中使用的比较广泛。

常用正则式表达式符号如下所示：

'.'     默认匹配除\n之外的任意一个字符，若指定flag DOTALL,则匹配任意字符，包括换行
'^'     匹配字符开头，若指定flags MULTILINE,这种也可以匹配上(r"^a","\nabc\neee",flags=re.MULTILINE)
'$'     匹配字符结尾，或e.search("foo$","bfoo\nsdfsf",flags=re.MULTILINE).group()也可以
'*'     匹配*号前的字符0次或多次，re.findall("ab*","cabb3abcbbac")  结果为['abb', 'ab', 'a']
'+'     匹配前一个字符1次或多次，re.findall("ab+","ab+cd+abb+bba") 结果['ab', 'abb']
'?'     匹配前一个字符1次或0次
'{m}'   匹配前一个字符m次
'{n,m}' 匹配前一个字符n到m次，re.findall("ab{1,3}","abb abc abbcbbb") 结果'abb', 'ab', 'abb']
'|'     匹配|左或|右的字符，re.search("abc|ABC","ABCBabcCD").group() 结果'ABC'
'(...)' 分组匹配，re.search("(abc){2}a(123|456)c", "abcabca456c").group() 结果 abcabca456c
 
 
'\A'    只从字符开头匹配，re.search("\Aabc","alexabc") 是匹配不到的
'\Z'    匹配字符结尾，同$
'\d'    匹配数字0-9
'\D'    匹配非数字
'\w'    匹配[A-Za-z0-9]
'\W'    匹配非[A-Za-z0-9]
's'     匹配空白字符、\t、\n、\r , re.search("\s+","ab\tc1\n3").group() 结果 '\t'
 
'(?P<name>...)' 分组匹配 re.search("(?P<province>[0-9]{4})(?P<city>[0-9]{2})(?P<birthday>[0-9]{4})","371481199306143242").groupdict("city") 结果{'province': '3714', 'city': '81', 'birthday': '1993'}

我在这边介绍了五种正则表达式中的方法，分别是match（从字符串开始处匹配）、search（从字符串中搜索）、findall（匹配所有的要求匹配的字符串）、split（分割）、sub（替换）

下面是我列举的几个比较常用的正则表达式的实例：

1.在后面的字符串中匹配到的是‘Yan’
在这里插入图片描述

2.主要介绍的是group（）的用法
在这里插入图片描述

3. \d可以匹配到后面的数字：YanFeixu\d匹配的是在YanFeixu后面含有一个数字的字符串
在这里插入图片描述
4. \d+是匹配到多个数字

5. 这边介绍的是findall方法;

6.这边介绍的是search方法：

7.分组匹配（也就是匹配多个内容）：可以用下身份证中

8.这边介绍的是split的用法：

9.最后介绍最后一个正则表达式的方法sub：
在这里插入图片描述

总而言之，正则表达式其实不是很难，也比较容易理解，平时多回忆一下，就能记住的，是在不会的话就Google！

posted @ 2018-10-22 20:49 南邮吴亦凡阅读(153) 评论(0) 编辑收藏举报

刷新页面返回顶部

南邮吴亦凡

To iterate is human,to recurse is divine.

python中的re模块

下面是我列举的几个比较常用的正则表达式的实例：

公告