python 正则表达式

正则表达式是一个特殊的字符序列，可以方便的价差一个字符串是否与某个模式串匹配。
python的re包拥有全部的正则表达式功能。

1、正则表达式语法

语法	含义
[ABC]	匹配字符串中的所有ABC
[^ABC]	匹配字符串所有的非ABC
[A-Z]	匹配所有的A-Z大写字母
\s	空白字符，包括换行
\S	匹配非空白字符，不包括换行
\w	匹配字母，下划线，数字，`\w`等价于 `A-Za-z0-9_`

限定符	含义
*	表示前面的子表达式出现0次或者多次，`abc*d`可以匹配`abd`,`abcd`,`abccd`
+	表示前面的子表达式出现1次或者多次
?	表示前面的子表达式出现1次或者0次
.	匹配除`\n`之外的任何字符
.*	贪婪模式，可以匹配最长的，比如`a.*b`会匹配`aabab`，`azzzzzzbbbbbbb`等，可以匹配以a开头，以b结尾的所有串
.*?	懒惰模式，非贪婪模式，`a.?`会匹配`aab`，`ab`，`acb`，即以a开头，以b结尾最短的，中间可以没有。就是找到一个a，然后再找到第一个b就结束*
.+?	懒惰模式，可以匹配以a开头，以b结尾，中间必须有的字符串,`ab`是不可以的
()	一个正则表达式开始结束的位置
{}	表示限定符的开始结束，比如`o{2}`可以匹配`food`中的`oo`，`o{2,5}`表示o出现2次到5次,`[1-9][0-9]{0,1}`匹配0-99的两位数
\|	两项之间做个选则

定位符	含义
^	字符串开始的位置
$	匹配字符串结尾的位置
\b	单词边界，字与空格间的位置

最简单的正则表达式是普通字符串，可以匹配自身
'[pjc]ython'可以匹配'python'、'jython'、'cython'
'[a-zA-Z0-9]'可以匹配一个任意大小写字母或数字
'[^abc]'可以一个匹配任意除'a'、'b'、'c'之外的字符
'python|perl'或'p(ython|erl)'都可以匹配'python'或'perl'
子模式后面加上问号表示可选。r'(http://)?(www\.)?python\.org'只能匹配'http://www.python.org'、'http://python.org'、'www.python.org'和'python.org'
'^http'只能匹配所有以'http'开头的字符串
(pattern)*：允许模式重复0次或多次
(pattern)+：允许模式重复1次或多次
(pattern){m,n}：允许模式重复m~n次


'(a|b)*c'：匹配多个（包含0个）a或b，后面紧跟一个字母c。
'ab{1,}'：等价于'ab+'，匹配以字母a开头后面带1个至多个字母b的字符串。
'^[a-zA-Z]{1}([a-zA-Z0-9._]){4,19}$'：匹配长度为5-20的字符串，必须以字母开头并且可带字母、数字、“_”、“.”的字符串。
'^(\w){6,20}$'：匹配长度为6-20的字符串，可以包含字母、数字、下划线。
'^\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}$'：检查给定字符串是否为合法IP地址。
r'^(13[0-9]|15[012356789]|17[678]|18[0-9]|14[57])[0-9]{8}$'：检查给定字符串是否为手机号码。
'^[a-zA-Z]+$'：检查给定字符串是否只包含英文字母大小写。
'^\w+@(\w+\.)+\w+$'：检查给定字符串是否为合法电子邮件地址。
r'(\w)(?!.*\1)'：查找字符串中每个字符的最后一次出现。
r'(\w)(?=.*\1)'：查找字符串中所有重复出现的字符。


'^(\-)?\d+(\.\d{1,2})?$'：检查给定字符串是否为最多带有2位小数的正数或负数。
'[\u4e00-\u9fa5]'：匹配给定字符串中所有汉字。
'^\d{18}|\d{15}$'：检查给定字符串是否为合法身份证格式。
'\d{4}-\d{1,2}-\d{1,2}'：匹配指定格式的日期，例如2016-1-31。
'^(?=.*[a-z])(?=.*[A-Z])(?=.*\d)(?=.*[,._]).{8,}$'：检查给定字符串是否为强密码，必须同时包含英语字母大写字母、英文小写字母、数字或特殊符号（如英文逗号、英文句号、下划线），并且长度必须至少8位。
"(?!.*[\'\"\/;=%?]).+"：如果给定字符串中包含'、"、/、;、=、%、?则匹配失败。
'(.)\\1+'：匹配任意字符的两次或多次重复出现。
'((?P<f>\b\w+\b)\s+(?P=f))'：匹配连续出现两次的单词。
'((?P<f>.)(?P=f)(?P<g>.)(?P=g))'：匹配AABB形式的成语或字母组合。


r"/d+(?=[a-z]+)"：匹配连续的数字并且最后一个数字跟着小写字母。
r"/d+(?![a-z]+)"：匹配连续的数字，并且最后一个数字后面不能跟小写字母。
r"(?<=[a-z])\d+"：匹配连续的数字，并且第一个数字的前面是小写字母。
r"(?<![a-z])\d+"：连续的数字，并且第一个数字的前面不能小写字母。
r'\d{3}(?!\d)'：匹配三位数字，而且这三位数字的后面不能是数字。
r'\b((?!abc)\w)+\b'：匹配不包含连续字符串abc的单词。
r'(?<![a-z])\d{7}'：匹配前面不是小写字母的七位数字。
r"(?<=<(\w{4})>)(.*)(?=<\/\1>)"：匹配"<span> hello world </span>"中的span和hello world。

2、re的几个函数

re.match(patter, str)
作用：从字符串的起始位置匹配模式串，也就是从开头匹配，如果不匹配就结束。

re.search(patter, str)
作用：完整扫描依次字符串，找到第一次出现符合的。

re.findall()
返回一个list，查到所有符合的字符串

re.finditer() 返回一个迭代器，和findall差不多

s2 = 'ABCdefabbcd8239'
print(re.match('[a-z]{1,3}', s2)) # None 因为开头第一个不匹配
print(re.search('[a-z]{1,3}', s2)) # <re.Match object; span=(3, 6), match='def'> 这是一个re.match对象
print(re.search('[a-z]{1,3}', s2).span()) # (3, 6)
print(re.search('[a-z]{1,3}', s2).group()) # def
print(re.findall('[A-Za-z0-9]', s2)) # 不会去重，比如b出现两次 ['A', 'B', 'C', 'd', 'e', 'f', 'a', 'b', 'b', 'c', 'd', '8', '2', '3', '9']
print(re.findall('[a-z]{1,3}', s2)) # ['def', 'abb', 'cd']
print(re.finditer('[a-z]{1,3}', s2)) # 这是一个迭代器，不能像列表一样输出
for i in re.finditer('[a-z]{1,3}', s2):
    print(i) # i 是一个re.match对象,i.group()可以输出字符串

当字符串中有分组的时候，会出现一定的不同


# 当存在分组时：search 和 match返回的不是单纯的字符串，是一个还有k个元素的元组（k和()的个数相关）
# 下面的模式串存在两个括号，进行匹配后，使用group(i)可以输出每个括号的内容
print(re.match(r"(\d+)@(\w+).com", s1)) # <re.Match object; span=(0, 16), match='12345678@163.com'>
print(re.match(r"(\d+)@(\w+).com", s1).group()) # 12345678@163.com
print(re.search(r"(\d+)@(\w+).com", s1).group()) # 12345678@163.com
print(re.search(r"(\d+)@(\w+).com", s1).group(0)) # 12345678@163.com
print(re.search(r"(\d+)@(\w+).com", s1).group(1)) # 12345678
print(re.search(r"(\d+)@(\w+).com", s1).group(2)) # 163
print(re.search(r"(\d+)@(\w+).com", s1).groups()) # ('12345678', '163')
print(re.search(r"((\d+)@(\w+).com)", s1).groups()) # ('12345678@163.com', '12345678', '163')

print("----------------")


#正则有两个分组，我们需要分别获取分区，分组从0开始，group方法不传递索引默认为0，代表了整个正则的匹配结果
for i in re.finditer(r"(\d+)@(\w+).com", s1) :
    print(i.groups()) # 三行分别输出('12345678', '163') ('2345678', '163') ('345678', '163')
    print(i.group()) # 三行分别输出 12345678@163.com 2345678@163.com 345678@163.com
    print(i.group(1)) #  三行分别输出 12345678 2345678 345678

print("-------------")
print(re.findall(r"(\d+)@(\w+).com", s1)) # 一个列表 [('12345678', '163'), ('2345678', '163'), ('345678', '163')]
for i in re.findall(r"(\d+)@(\w+).com", s1):
    print(i[0]) # 三行分别输出 12345678 2345678 345678
    print(i) # 三行分别输出 ('12345678', '163'), ('2345678', '163'), ('345678', '163')


print("-------------")

# findall 返回的是元组，而不是re.match对象，无法直接获得想要的字符串
# 解决方法为：加一个整体的括号
print(re.findall(r"((\d+)@(\w+).com)", s1)) # 一个列表 [('12345678@163.com', '12345678', '163'), ('2345678@163.com', '2345678', '163'), ('345678@163.com', '345678', '163')]
for i in re.findall(r"((\d+)@(\w+).com)", s1):
    print(i[0]) # 三行分别输出 12345678@163.com 2345678@163.com 345678@163.com

posted @ 2021-11-15 17:36 MJT12044 阅读(349) 评论(2) 编辑收藏举报

刷新页面返回顶部

MJT1204

python 正则表达式

python 正则表达式

1、正则表达式语法

2、re的几个函数

公告