正则表达式定义和作用
#正则表达式是什么?
它是约束字符串匹配某种形式的规则
#正则表达式有什么用?
1.检测某个字符串是否符合规则.比如:判断手机号,身份证号是否合法
2.提取网页字符串中想要的数据.比如:爬虫中,提取网站天气,信息,股票代码,星座运势等具体关键字
#在线测试工具 http://tool.chinaz.com/regex/
正则表达式所包含的元素种类
#正则表达式由一些 [普通字符] 和一些 [元字符] 组成:
(1)普通字符包括大小写字母和数字
(2)元字符具有特殊含义,大体种类分为如下:
1.预定义字符集,字符组
2.量词
3.边界符
4.分组
(一) 匹配单个字符 => [元字符] 预定义字符集
预定义字符集 |
匹配内容 |
. |
匹配任意字符,除了换行符\n |
\d |
匹配数字 |
\D |
匹配非数字 |
\w |
匹配字母或数字或下划线 (正则函数中,支持中文的匹配) |
\W |
匹配非字母或数字或下划线 |
\s |
匹配任意的空白符 等价于 \t\r\n\f |
\S |
匹配任意非空白符 |
\A |
匹配字符串的开始 |
\Z |
匹配字符串结束,如果存在换行,只匹配到换行前的字符串 |
\z |
匹配字符串结束 |
\n |
匹配一个换行符 |
\t |
匹配一个制表符 |
\G |
匹配最后匹配 完成的位置 |
^ |
匹配字符串开头 |
$ |
匹配字符串结尾 |
. |
匹配除了换行符\n之外的任意字符 当re.DOTALL或re.S标记被指定时,可匹配包括换行符的任意字符 |
* |
匹配0次或多次的表达式 不能单独使用,左侧字符重复0或无数次 贪婪匹配 |
+ |
匹配1次或多次的表达式 不能单独使用,左侧字符重复1或无数次 贪婪匹配 |
? |
匹配0次或1次由前面的表达式定义的片段 不能单独使用,左侧字符重复0次或1次 非贪婪匹配 |
[] |
匹配中括号内列举的字符 |
() |
匹配小括号内的表达式也表示一个组 |
{n} | 匹配n次前面的表达式 左侧字符重复n次 贪婪匹配
{n,} | 匹配n到无数次前面的表达式 左侧字符重复n次或更多次 (至少n次) 贪婪匹配
{n,m} | 匹配n到m次前面正则表达式定义的片段 贪婪匹配
a|b | 匹配a或者b
字符组格式 |
说明 [默认必须从字符组中选一个] |
[...] |
匹配字符组中的任意字符 |
[^...] |
匹配除了字符组内任意字符之外的所有字符 |
字符组内容 |
待匹配字符 |
匹配结果 |
说明 |
[0123456789] |
8 |
True |
字符组里枚举的各种字符,必须满足一个,否则返回假,不匹配 |
[abcdefg] |
9 |
False |
由于字符组中没有"9"字符,所以不匹配 |
[0-9] |
7 |
True |
可用 - 表示范围,[0-9] 和 [0123456789]是一个意思 |
[a-z] |
s |
True |
[a-z]匹配所有的小写字母 |
[A-Z] |
B |
True |
[A-Z]就表示所有的大写字母 |
[0-9a-fA-F] |
e |
True |
可以匹配数字,大小写形式的a-f. 该正则可验证十六进制 |
(二) 匹配多个字符 => [元字符] 量词符号
| 量词 || 用法说明
|
| ? | 重复0次或1次
| + | 重复1次或多次 (至少1次)
| * | 重复0次或多次 (任意次)
|{n} | 重复n次
|{n,} | 重复n次或更多次 (至少n次)
|{n,m} | 重复n到m次
| .* .+ | 贪婪模式匹配
| .*? .+? | 非贪婪模式匹配
# 贪婪匹配: 默认向更多次数匹配 (底层用的是回溯算法)
# 非贪婪匹配: 默认向更少次数匹配 (量词的后面加?号)
(1)量词( * ? + {} )加上问号?表示非贪婪 惰性匹配
(2)例:.*?w 表示匹配任意长度任意字符遇到一个w就立即停止
(三) 匹配开头结尾 => [元字符] 边界符号
边界符 |
说明 |
\b |
匹配一个字符的边界 |
^ |
匹配字符串的开始 |
$ |
匹配字符串的结尾 |
(四) 匹配分组 => [元字符] 分组符号
分组 |
用法说明 |
a|b |
匹配字符a 或 字符b (如果两个当中有重合部分,把更长的那个放前面) |
(ab) |
匹配括号内的表达式 ,将()作为一个分组 |
\num |
引用分组num匹配到的字符串 |
(?P) |
给分组命名 |
(?P=name) |
引用别名: 把name分组所匹配到的内容引用到这里 |
1) 正常情况下用()圆括号进行分组 可以用\1 反向引用第一个圆括号匹配的内容。
2) (?:正则表达式) 表示取消优先显示的功能
(正则表达式) 代表分组 findall 把所有分组的内容显示到列表里
(?:正则表达式) 代表分组 findall 把所有分组的内容不显示到列表里
3) (?P<组名>正则表达式) 给这个组起一个名字
4) (?P=组名) 引用之前组的名字,把该组名匹配到的内容放到当前位置
(五) 正则表达式修饰符
常用修饰符 |
说明 |
re.I |
使匹配对大小写不敏感 |
re.M |
使每一行都能够单独匹配(多行匹配),影响 ^ 和 $ |
re.S |
使 . 匹配包括换行在内的所有字符 |
正则相关函数
findall 匹配字符串中相应内容,返回列表 [用法: findall("正则表达式","要匹配的字符串")]
re.findall('a.b','a\nb',re.DOTALL)
search 通过正则匹配出第一个对象返回,通过group取出对象中的值
match 验证用户输入内容
split 切割
sub 替换
subn 替换
finditer 匹配字符串中相应内容,返回迭代器
compile 指定一个统一的匹配规则
练习
'''1) ? 匹配0个或者1个a '''
print(re.findall('a?b','abbzab abb aab'))
'''2) + 匹配1个或者多个a '''
print(re.findall('a+b','b ab aaaaaab abb'))
'''3) * 匹配0个或者多个a '''
print(re.findall('a*b','b ab aaaaaab abbbbbbb'))
'''4) {m,n} 匹配m个至n个a '''
print(re.findall('a{1,3}b','aaab ab aab abbb aaz aabb'))
print(re.findall('a.*b','aab ab aaaaab a!!!@#$bz'))
print(re.findall('a.*?b','aab ab aaaaab a!!!@#$bz'))
strvar = "大哥大嫂大爷"
print(re.findall('大.',strvar))
print(re.findall('^大.',strvar))
print(re.findall('大.$',strvar))
print(re.findall('^大.$',strvar))
print(re.findall('^大.*?$',strvar))
print(re.findall('^大.*?大$',strvar))
print(re.findall('^大.*?爷$',strvar))
print(re.findall('^g.*? ' , 'giveme 1gfive gay'))
print(re.findall('five$' , 'aassfive'))
print(re.findall('^giveme$' , 'giveme'))
print(re.findall('.*?_good','wusir_good alex_good secret男_good'))
print(re.findall('(.*?)_good','wusir_good alex_good secret男_good'))
print(re.findall('(?:.*?)_good','wusir_good alex_good secret男_good'))
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗?
· 【译】Visual Studio 中新的强大生产力特性
· 【设计模式】告别冗长if-else语句:使用策略模式优化代码结构
· AI与.NET技术实操系列(六):基于图像分类模型对图像进行分类