随笔- 135 文章- 10 评论- 2 阅读- 50362

正则表达式

一、正则表达式

是用来描述字符串内容格式，使用它通常用于匹配一个字符串的内容是否符合格式要求。

1.[ ]:表示一个字符，该字符可以是[ ]中指定的内容

例如:

[0123456789]:匹配0-9任意一个数字（全写）

[0-9]:匹配0-9任意一个数字（缩写）

[abc]：这个字符可以是a或b或c

[a-z]：匹配任意一个小写字母

[A-Z]:匹配任意一个大写字母

[a-zA-Z]：表示任意一个字母

[a-zA-Z0-9_]：表示任意一个数字字母下划线

[^abc]：该字符只要不是a或b或c

ps:字符组内所有的数据默认都是或的关系

返回目录

2.特殊符号:

. :表示任意一个除了换行符以外的字符

\d :表示任意一个数字,等同于[0-9]

\w :表示任意一个数字、字母、下划线,等同于[a-zA-Z0-9_]

\s :表示任意一个空白字符

\D :表示不是数字

\W :不是单词字符

\S:不是空白字符

^: 匹配字符串的开头

$: 匹配字符串的结尾

   ^与$组合使用可以非常精确的限制匹配内容

a|b:匹配a或者b(管道符的意思是或)

():给正则表达式分组 不影响表达式的匹配功能

[]:字符组,内部填写的内容默认都是或的关系

[^]:取反操作,匹配除了字符组里面的其他所有字符

注意:上尖号在中括号内和中括号意思完全不同

返回目录

3.量词:

?:表示前面的内容出现0-1次，作为量词意义不大主要用于非贪婪匹配
例如: [abc]? 可以匹配:a 或 b 或 c 或什么也不写

+:表示前面的内容最少出现1次，默认是多次
例如: [abc]+ 可以匹配:b或aaaaaaaaaa…或abcabcbabcbabcba…
但是不能匹配:什么都不写 或 abcfdfsbbaqbb34bbwer…

*:表示前面的内容出现任意次(0-多次)—默认是多次
例如: [abc]* 可以匹配:b或aaaaaaaaaa…或abcabcba…或什么都不写
但是不能匹配:abcfdfsbbaqbb34bbwer…

{n}:表示前面的内容出现n次
例如: [abc]{3} 可以匹配:aaa 或 bbb 或 aab 或abc 或bbc
但是不能匹配: aaaa 或 aad

{n,m}:表示前面的内容出现最少n次最多m次
例如: [abc]{3,5} 可以匹配:aaa 或 abcab 或者 abcc
但是不能匹配:aaaaaa 或 aabbd

{n,}:表示前面的内容出现n次以上(含n次)
例如: [abc]{3,} 可以匹配:aaa 或 aaaaa… 或 abcbabbcbabcba…
但是不能匹配:aa 或 abbdaw…

ps:量词必须结合表达式一起使用，不能单独出现，并且只影响左边第一个表达式

Alex\d{3} 只影响\d

返回目录

4.`()`用于分组，是将括号内的内容看做是一个整体

**'(abc){3}'** 表示abc整体出现3次. 
    可以匹配abcabcabc，但是不能匹配aaa 或abcabc
 
'(abc|def){3}' 表示abc或def整体出现3次.
    可以匹配: abcabcabc 或 defdefdef 或 abcdefabc
    但是不能匹配abcdef 或abcdfbdef

返回目录

二、正则表达式相关练习

返回目录

1. . ^ $

正则	待匹配字符	匹配结果	说明
海.	海燕海娇海东	海燕海娇海东	匹配所有"海."的字符
^海.	海燕海娇海东	海燕	只从开头匹配"海."
海.$	海燕海娇海东	海东	只匹配结尾的"海.$"

返回目录

2.* + ？{}

正则	待匹配字符	匹配结果	说明
李.?	李杰和李莲英和李二棍子	李杰李莲李二	?表示重复零次或一次，即只匹配"李"后面一个任意字符
李.*	李杰和李莲英和李二棍子	李杰和李莲英和李二棍子	*表示重复零次或多次，即匹配"李"后面0或多个任意字符
李.+	李杰和李莲英和李二棍子	李杰和李莲英和李二棍子	+表示重复一次或多次，即只匹配"李"后面1个或多个任意字符
李.{1,2}	李杰和李莲英和李二棍子	李杰和李莲英李二棍	{1,2}匹配1到2次任意字符

注意：前面的*，+，？等都是贪婪匹配，也就是尽可能匹配，后面加?号使其变成惰性匹配

正则	待匹配字符	匹配结果	说明
李.*?	李杰和李莲英和李二棍子	李李李	惰性匹配

返回目录

3. 字符集 [ ] [^]

正则	待匹配字符	匹配结果	说明
李[杰莲英二棍子]*	李杰和李莲英和李二棍子	李杰李莲英李二棍子	表示匹配"李"字后面[杰莲英二棍子]的字符任意次
李[^和]*	李杰和李莲英和李二棍子	李杰李莲英李二棍子	表示匹配一个不是"和"的字符任意次
[\d]	456bdha3	4 5 6 3	表示匹配任意一个数字，匹配到4个结果
[\d]+	456bdha3	456 3	表示匹配任意个数字，匹配到2个结果

返回目录

4. 分组 ()与或｜［^］

正则	待匹配字符	匹配结果	说明
^[1-9]\d{13,16}[0-9x]$	110101198001017032	110101198001017032	表示可以匹配一个正确的身份证号
^[1-9]\d{13,16}[0-9x]$	1101011980010170	1101011980010170	表示也可以匹配这串数字，但这并不是一个正确的身份证号码，它是一个16位的数字
^[1-9]\d{14}(\d{2}[0-9x])?$	1101011980010170	False	现在不会匹配错误的身份证号了 ()表示分组，将\d{2}[0-9x]分成一组，就可以整体约束他们出现的次数为0-1次
^([1-9]\d{16}[0-9x]\|[1-9]\d{14})$	110105199812067023	110105199812067023	表示先匹配[1-9]\d{16}[0-9x]如果没有匹配上就匹配[1-9]\d{14}

返回目录

三、转义符

在正则表达式中，有很多有特殊意义的是元字符，比如\n和\s等，如果要在正则中匹配正常的"\n"而不是"换行符"就需要对"\"进行转义，变成'\\'。

在python中，无论是正则表达式，还是待匹配的内容，都是以字符串的形式出现的，在字符串中\也有特殊的含义，本身还需要转义。所以如果匹配一次"\n",字符串中要写成'\\n'，那么正则里就要写成"\\\\n",这样就太麻烦了。这个时候我们就用到了r'\n'这个概念，此时的正则是r'\\n'就可以了。

正则	待匹配字符	匹配结果	说明
\n	\n	False	因为在正则表达式中\是有特殊意义的字符，所以要匹配\n本身，用表达式\n无法匹配
\\n	\n	True	转义\之后变成\\，即可匹配
"\\\\n"	'\\n'	True	如果在python中，字符串中的'\'也需要转义，所以每一个字符串'\'又需要转义一次
r'\\n'	r'\n'	True	在字符串之前加r，让整个字符串不转义

返回目录

四、贪婪匹配

返回目录

贪婪匹配：

　　在满足匹配时，匹配尽可能长的字符串，默认情况下，采用贪婪匹配

正则	待匹配字符	匹配结果	说明
<.*>	<script>...<script>	<script>...<script>	默认为贪婪匹配模式，会匹配尽量长的字符串
<.*?>	r'\d'	<script> <script>	加上？为将贪婪匹配模式转为非贪婪匹配模式，会匹配尽量短的字符串

返回目录

几个常用的非贪婪匹配Pattern

*? 重复任意次，但尽可能少重复

+? 重复1次或更多次，但尽可能少重复

?? 重复0次或1次，但尽可能少重复

{n,m}? 重复n到m次，但尽可能少重复

{n,}? 重复n次以上，但尽可能少重复

返回目录

.*?的用法

. 是任意字符

* 是取 0 至 无限长度

? 是非贪婪模式。

合在一起就是 取尽量少的任意字符，一般不会这么单独写，他大多用在：
.*?x

就是取前面任意长度的字符，直到一个x出现

返回目录

五、常用正则表达式演示：

返回目录

1.邮箱演示：

返回目录

2.数字校验：

数字：^ [0-9]*$

n位的数字：^\d{n}$

至少n位的数字：^\d{n,}$

m-n位的数字：^\d{m,n}$

零和非零开头的数字：^(0|[1-9][0-9]*)$

非零开头的最多带两位小数的数字：^([1-9][0-9]*)+(.[0-9]{1,2})?$

带1-2位小数的正数或负数：^(-)?\d+(.\d{1,2})?$

正数、负数、和小数：^(-|+)?\d+(.\d+)?$

有两位小数的正实数：^ [0-9]+(.[0-9]{2})?$

有1~3位小数的正实数：^ [0-9]+(.[0-9]{1,3})?$

非零的正整数：^ [1-9]\d*$ 或 ^([1-9][0-9]){1,3}$ 或 ^+?[1-9][0-9]$

非零的负整数：^-[1-9][]0-9"$ 或 ^-[1-9]\d$

非负整数：^\d+$ 或 ^ [1-9]\d*|0$

非正整数：^-[1-9]\d*|0$ 或 ^((-\d+)|(0+))$

非负浮点数：^\d+(.\d+)?$ 或 ^ [1-9]\d*.\d*|0.\d*[1-9]\d*|0?.0+|0$

非正浮点数：^((-\d+(.\d+)?)|(0+(.0+)?))$ 或 ^(-([1-9]\d*.\d*|0.\d*[1-9]\d*))|0?.0+|0$

正浮点数：^ [1-9]\d*.\d*|0.\d*[1-9]\d*$ 或 ^ (([0-9]+.[0-9][1-9][0-9])|([0-9][1-9][0-9].[0-9]+)|([0-9][1-9][0-9]))$

负浮点数：^-([1-9]\d*.\d*|0.\d*[1-9]\d*)$ 或 ^(-(([0-9]+.[0-9][1-9][0-9])|([0-9][1-9][0-9].[0-9]+)|([0-9][1-9][0-9])))$

浮点数：^(-?\d+)(.\d+)?$ 或 ^-?([1-9]\d*.\d*|0.\d*[1-9]\d*|0?.0+|0)$

返回目录

3.验证字符：

汉字 ：^[\u4e00-\u9fa5]{0,}$

英文和数字：^[A-Za-z0-9]+$ 或 ^[A-Za-z0-9]{4,40}$

长度为3-20的所有字符：^.{3,20}$

由26个英文字母组成的字符串：^[A-Za-z]+$

由26个大写英文字母组成的字符串：^[A-Z]+$

由26个小写英文字母组成的字符串：^[a-z]+$

由数字和26个英文字母组成的字符串：^[A-Za-z0-9]+$

由数字、26个英文字母或者下划线组成的字符串：^\w+$ 或 ^\w{3,20}$

中文、英文、数字包括下划线：^[\u4E00-\u9FA5A-Za-z0-9_]+$

中文、英文、数字但不包括下划线等符号：^[\u4E00-\u9FA5A-Za-z0-9]+$ 或 ^[\u4E00-\u9FA5A-Za-z0-9]{2,20}$

返回目录

4.其他常用验证

1.域名：[a-zA-Z0-9][-a-zA-Z0-9]{0,62}(/.[a-zA-Z0-9][-a-zA-Z0-9]{0,62})+/.?

2.手机号码：^(13[0-9]|14[5|7]|15[0|1|2|3|5|6|7|8|9]|18[0|1|2|3|5|6|7|8|9])\d{8}$

3.身份证号(15位、18位数字)：^\d{15}|\d{18}$

4.密码(以字母开头，长度在6~18之间，只能包含字母、数字和下划线)：^ [a-zA-Z]\w{5,17}$

5.日期格式：^\d{4}-\d{1,2}-\d{1,2}

6.一年的12个月(01～09和1～12)：^(0?[1-9]|1[0-2])$

7.一个月的31天(01～09和1～31)：^((0?[1-9])|((1|2)[0-9])|30|31)$

8.xml文件：^([a-zA-Z]±?)+[a-zA-Z0-9]+\.[x|X][m|M][l|L]$

9.中文字符的正则表达式：[\u4e00-\u9fa5]

10.QQ号：[1-9][0-9]{4,} (腾讯QQ号从10000开始)

11.中国邮政编码：[1-9]\d{5}(?!\d) (中国邮政编码为6位数字)

12.IP地址：\d+.\d+.\d+.\d+ (提取IP地址时有用)

13.IP地址：(( ? : ( ?:25[0-5]|2[0-4]\d|[01]?\d?\d)\.){3}(?:25[0-5]|2[0-4]\d|[01]?\d?\d))

14.文件扩展名效验:^([a-zA-Z]\: |\\)\\([^\\]+\\)* [ ^ \/: * ?"<>|]+\.txt(l)?$

ps：上面的表达式不要求会写，网上都能查到。

参考网站：https://tool.chinaz.com/regex

返回目录

六、re模块

import re

res = re.findall('a', 'eva jason yuan')  # 返回所有满足匹配条件的结果,放在列表里
print(res) #结果 : ['a', 'a']

res = re.search('a', 'eva jason yuan').group()
print(res) #结果 : 'a'
# 函数会在字符串内查找模式匹配,只到找到第一个匹配然后返回一个包含匹配信息的对象,该对象可以
# 通过调用group()方法得到匹配的字符串,如果字符串没有匹配，则返回None。

res = re.match('a', 'abc').group()  # 同search,不过尽在字符串开始处进行匹配
print(res)
#结果 : 'a'

res = re.split('[ab]', 'abcd')  # 先按'a'分割得到''和'bcd',在对''和'bcd'分别按'b'分割
print(res)  # ['', '', 'cd']

res = re.sub('\d', 'H', 'eva3jason4yuan4', 1)#将数字替换成'H'，参数1表示只替换1个
print(res) #evaHjason4yuan4

res = re.subn('\d', 'H', 'eva3jason4yuan4')#将数字替换成'H'，返回元组(替换的结果,替换了多少次)
print(res)

obj = re.compile('\d{3}')  #将正则表达式编译成为一个 正则表达式对象，规则要匹配的是3个数字
res = obj.search('abc123eeee') #正则表达式对象调用search，参数为待匹配的字符串
print(res.group())  #结果 ： 123

import re
res = re.finditer('\d', 'ds3sy4784a')   #finditer返回一个存放匹配结果的迭代器
print(res)  # <callable_iterator object at 0x10195f940>
print(next(res).group())  #查看第一个结果
print(next(res).group())  #查看第二个结果
print([i.group() for i in res])  #查看剩余的左右结果

返回目录

注意：

返回目录

1. findall的优先级查询：

import re

res = re.findall('www.(baidu|oldboy).com', 'www.oldboy.com')
print(res)   # ['oldboy']     这是因为findall会优先把匹配结果组里内容返回,如果想要匹配结果,取消权限即可

res = re.findall('www.(?:baidu|oldboy).com', 'www.oldboy.com')
print(res)   # ['www.oldboy.com']

res = re.search('www.(baidu|oldboy).com', 'www.oldboy.com')
print(res.group())   # www.oldboy.com

res = re.match('www.(baidu|oldboy).com', 'www.oldboy.com')
print(res.group())   # www.oldboy.com

返回目录

2.split的优先级查询

res=re.split("\d+","eva3jason4yuan")
print(res) #结果 ： ['eva', 'jason', 'yuan']

res=re.split("(\d+)","eva3jason4yuan")
print(res) #结果 ： ['eva', '3', 'jason', '4', 'yuan']

#在匹配部分加上（）之后所切出的结果是不同的，
#没有（）的没有保留所匹配的项，但是有（）的却能够保留了匹配的项，
#这个在某些需要保留匹配部分的使用过程是非常重要的。

返回目录

3. 分组别名

res = re.search('www.(?P<content>baidu|oldboy)(?P<hei>.com)', 'www.oldboy.com')

print(res.group())     # www.oldboy.com

print(res.group('content'))     # oldboy

print(res.group(0))     # www.oldboy.com

print(res.group(1))     # oldboy

print(res.group(2))     # .com

print(res.group('hei'))     # .com

返回目录

七、综合练习与扩展

1. 匹配标签

import re


res = re.search("<(?P<tag_name>\w+)>\w+</(?P=tag_name)>","<h1>hello</h1>")
#还可以在分组中利用?<name>的形式给分组起名字
#获取的匹配结果可以直接用group('名字')拿到对应的值
print(res.group('tag_name'))  #结果 ：h1
print(res.group())  #结果 ：<h1>hello</h1>

res = re.search(r"<(\w+)>\w+</\1>","<h1>hello</h1>")
#如果不给组起名字，也可以用\序号来找到对应的组，表示要找的内容和前面的组内容一致
#获取的匹配结果可以直接用group(序号)拿到对应的值
print(res.group(1))
print(res.group())  #结果 ：<h1>hello</h1>

2. 匹配整数

import re

res=re.findall(r"\d+","1-2*(60+(-40.35/5)-(-4*3))")
print(res)   #['1', '2', '60', '40', '35', '5', '4', '3']

res=re.findall(r"-?\d+\.\d*|(-?\d+)","1-2*(60+(-40.35/5)-(-4*3))")
print(res)   #['1', '-2', '60', '', '5', '-4', '3']

res.remove("")
print(res)   #['1', '-2', '60', '5', '-4', '3']

posted @ 2022-10-25 13:55 莫~慌阅读(290) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· 与用户交互、格式化输出、基本运算符

· Redis五大数据类型

· 正则表达式

· 正则与re模块

· 正则表达式

阅读排行：
· 震惊！C++程序真的从main开始吗？99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码？零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾（3.3-3.9）
· winform 绘制太阳，地球，月球运作规律

公告

昵称：莫~慌
园龄： 3年3个月
粉丝： 8
关注： 8

+加关注

2025年3月

日

一

二

三

四

五

六

合集

数学(10)

一、正则表达式

1.[ ]:表示一个字符，该字符可以是[ ]中指定的内容

2.特殊符号:

3.量词:

4.()用于分组，是将括号内的内容看做是一个整体

二、正则表达式相关练习

1. . ^ $

2.* + ？{}

3. 字符集 [ ] [^]

4. 分组 ()与 或 ｜［^］

三、转义符

四、贪婪匹配

贪婪匹配：

几个常用的非贪婪匹配Pattern

.*?的用法

五、常用正则表达式演示：

1.邮箱演示：

2.数字校验：

3.验证字符：

4.其他常用验证

六、re模块

注意：

1. findall的优先级查询：

2.split的优先级查询

3. 分组别名

七、综合练习与扩展

1. 匹配标签

2. 匹配整数

公告

搜索

常用链接

合集

随笔档案

4.`()`用于分组，是将括号内的内容看做是一个整体

4. 分组 ()与或｜［^］