正则表达式

正则表达式定义和作用

#正则表达式是什么?
	它是约束字符串匹配某种形式的规则
#正则表达式有什么用?
    1.检测某个字符串是否符合规则.比如:判断手机号,身份证号是否合法
    2.提取网页字符串中想要的数据.比如:爬虫中,提取网站天气,信息,股票代码,星座运势等具体关键字
#在线测试工具  http://tool.chinaz.com/regex/

正则表达式所包含的元素种类

#正则表达式由一些 [普通字符] 和一些 [元字符] 组成:
    (1)普通字符包括大小写字母和数字
    (2)元字符具有特殊含义,大体种类分为如下:
        1.预定义字符集,字符组
        2.量词
        3.边界符
        4.分组

(一) 匹配单个字符 => [元字符] 预定义字符集

预定义字符集	匹配内容
.	匹配任意字符，除了换行符\n
\d	匹配数字
\D	匹配非数字
\w	匹配字母或数字或下划线 (正则函数中,支持中文的匹配)
\W	匹配非字母或数字或下划线
\s	匹配任意的空白符等价于 \t\r\n\f
\S	匹配任意非空白符
\A	匹配字符串的开始
\Z	匹配字符串结束，如果存在换行，只匹配到换行前的字符串
\z	匹配字符串结束
\n	匹配一个换行符
\t	匹配一个制表符
\G	匹配最后匹配完成的位置
^	匹配字符串开头
$	匹配字符串结尾
.	匹配除了换行符\n之外的任意字符当re.DOTALL或re.S标记被指定时，可匹配包括换行符的任意字符
*	匹配0次或多次的表达式不能单独使用，左侧字符重复0或无数次贪婪匹配
+	匹配1次或多次的表达式不能单独使用，左侧字符重复1或无数次贪婪匹配
?	匹配0次或1次由前面的表达式定义的片段不能单独使用，左侧字符重复0次或1次非贪婪匹配
[]	匹配中括号内列举的字符
()	匹配小括号内的表达式也表示一个组

{n}         | 匹配n次前面的表达式          左侧字符重复n次    贪婪匹配
{n,}        | 匹配n到无数次前面的表达式     左侧字符重复n次或更多次 (至少n次)   贪婪匹配
{n,m}       | 匹配n到m次前面正则表达式定义的片段              贪婪匹配
a|b         | 匹配a或者b

字符组格式	说明 [默认必须从字符组中选一个]
[...]	匹配字符组中的任意字符
[^...]	匹配除了字符组内任意字符之外的所有字符

字符组内容	待匹配字符	匹配结果	说明
[0123456789]	8	True	字符组里枚举的各种字符,必须满足一个,否则返回假,不匹配
[abcdefg]	9	False	由于字符组中没有"9"字符，所以不匹配
[0-9]	7	True	可用 - 表示范围,[0-9] 和 [0123456789]是一个意思
[a-z]	s	True	[a-z]匹配所有的小写字母
[A-Z]	B	True	[A-Z]就表示所有的大写字母
[0-9a-fA-F]	e	True	可以匹配数字,大小写形式的a-f. 该正则可验证十六进制

(二) 匹配多个字符 => [元字符] 量词符号

|    量词    ||         用法说明
| ---------- | -------------------------
| ?          | 重复0次或1次
| +          | 重复1次或多次  (至少1次)
| *          | 重复0次或多次  (任意次)
|{n}         | 重复n次
|{n,}        | 重复n次或更多次 (至少n次)
|{n,m}       | 重复n到m次
| .*    .+   | 贪婪模式匹配
| .*?    .+? | 非贪婪模式匹配

# 贪婪匹配:   默认向更多次数匹配  (底层用的是回溯算法)
# 非贪婪匹配:  默认向更少次数匹配 (量词的后面加?号)
    (1)量词( * ? + {} )加上问号？表示非贪婪 惰性匹配
    (2)例:.*?w  表示匹配任意长度任意字符遇到一个w就立即停止

(三) 匹配开头结尾 => [元字符] 边界符号

边界符	说明
\b	匹配一个字符的边界
^	匹配字符串的开始
$	匹配字符串的结尾

(四) 匹配分组 => [元字符] 分组符号

分组	用法说明
a\|b	匹配字符a 或字符b (如果两个当中有重合部分,把更长的那个放前面)
(ab)	匹配括号内的表达式，将()作为一个分组
\num	引用分组num匹配到的字符串
(?P)	给分组命名
(?P=name)	引用别名：把name分组所匹配到的内容引用到这里

# ###分组

# 1.正常分组 （）
1) 正常情况下用()圆括号进行分组 可以用\1 反向引用第一个圆括号匹配的内容。
2) (?:正则表达式) 表示取消优先显示的功能
(正则表达式)    代表分组 findall 把所有分组的内容显示到列表里
(?:正则表达式)  代表分组 findall 把所有分组的内容不显示到列表里

# 2.命名分组
3) (?P<组名>正则表达式) 给这个组起一个名字
4) (?P=组名) 引用之前组的名字,把该组名匹配到的内容放到当前位置

(五) 正则表达式修饰符

常用修饰符	说明
re.I	使匹配对大小写不敏感
re.M	使每一行都能够单独匹配(多行匹配)，影响 ^ 和 $
re.S	使 . 匹配包括换行在内的所有字符

正则相关函数

findall  匹配字符串中相应内容,返回列表 [用法: findall("正则表达式","要匹配的字符串")]
         #当正则表达式与字符串匹配成功后，下次匹配从匹配成功字符串的下一位开始匹配
         re.findall('a.b','a\nb',re.DOTALL)  #使用re.DOTALL后.可匹配换行符
search   通过正则匹配出第一个对象返回，通过group取出对象中的值
match    验证用户输入内容
split    切割
sub      替换 
subn     替换 
finditer 匹配字符串中相应内容,返回迭代器
compile  指定一个统一的匹配规则

练习

# 字符组练习
# print(re.findall('a[abc]b','aab abb acb adb'))
# print(re.findall('a[0123456789]b','a1b a2b a3b acb ayb'))
# print(re.findall('a[abcdefg]b','a1b a2b a3b acb ayb adb'))
# print(re.findall('a[ABCDEFG]b','a1b a2b a3b  aAb aDb aYb'))
# print(re.findall('a[0-9a-zA-Z]b','a-b aab aAb aWb aqba1b')) 
# print(re.findall('a[0-9][*#/]b','a1/b a2b a29b a56b a456b'))
# print(re.findall('a[^-+*/]b',"a%b ccaa*bda&bd"))

# 量词练习
'''1) ? 匹配0个或者1个a '''
print(re.findall('a?b','abbzab abb aab'))  
'''2) + 匹配1个或者多个a '''
print(re.findall('a+b','b ab aaaaaab abb'))
'''3) * 匹配0个或者多个a '''
print(re.findall('a*b','b ab aaaaaab abbbbbbb'))
'''4) {m,n} 匹配m个至n个a '''
print(re.findall('a{1,3}b','aaab ab aab abbb aaz aabb'))

# 贪婪匹配 与 非贪婪匹配 [语法:量词的后面加?号]
print(re.findall('a.*b','aab ab aaaaab a!!!@#$bz')) 
print(re.findall('a.*?b','aab ab aaaaab a!!!@#$bz')) #

# 边界符练习 \b ^ $
strvar = "大哥大嫂大爷"
print(re.findall('大.',strvar))
print(re.findall('^大.',strvar))
print(re.findall('大.$',strvar))
print(re.findall('^大.$',strvar))
print(re.findall('^大.*?$',strvar))
print(re.findall('^大.*?大$',strvar))
print(re.findall('^大.*?爷$',strvar))

print(re.findall('^g.*? ' , 'giveme 1gfive gay'))
print(re.findall('five$' , 'aassfive'))
print(re.findall('^giveme$' , 'giveme'))
# print(re.findall('^giveme$' , 'giveme giveme'))
# print(re.findall('giveme' , 'giveme giveme'))
# print(re.findall("^g.*e",'giveme 1gfive gay'))


# 分组练习（用圆括号）
print(re.findall('.*?_good','wusir_good alex_good secret男_good'))
print(re.findall('(.*?)_good','wusir_good alex_good secret男_good'))
print(re.findall('(?:.*?)_good','wusir_good alex_good secret男_good'))

#  | 代表或 , a|b 匹配字符a 或者 匹配字符b . 把字符串长的写在前面,字符串短的写在后面
# 匹配小数 
# 匹配小数和整数 
# 匹配135或171的手机号 
# 匹配www.baidu.com 或者 www.oldboy.com
# "5*6-7/3" 匹配 5*6 或者 7/3

发表于 2023-05-08 16:28 翙翎阅读(3) 评论(0) 编辑收藏举报

随笔分类

随笔档案

正则表达式定义和作用

正则表达式所包含的元素种类

(一) 匹配单个字符 => [元字符] 预定义字符集

(二) 匹配多个字符 => [元字符] 量词符号

(三) 匹配开头结尾 => [元字符] 边界符号

(四) 匹配分组 => [元字符] 分组符号

(五) 正则表达式修饰符

正则相关函数

练习