WELCOME

不积跬步,无以至千里;不积小流,无以成江海。

Python正则表达式--查找和替换,split()

1.正则表达式

正则表达式
  正则表达式是一个特殊的字符序列,计算机科学的一个概念。通常被用来检索、替换那些符合某个模式(规则)的文本。

许多程序设计语言都支持利用正则表达式进行字符串操作。在Python中需要通过正则表达式对字符串进行匹配的时候,可

以使用re模块。re 模块使 Python 语言拥有全部的正则表达式功能。

 

特点

灵活性、逻辑性和功能性非常强;
可以迅速地用极简单的方式达到字符串的复杂控制。
对于刚接触的人来说,比较晦涩难懂。

 

Python中的正则表达式

  与大多数编程语言相同,正则表达式里也使用\作为转义字符,这就可能造成反斜杠困扰。假如你需要匹配文本中的字符\,

那么使用编程语言表示的正则表达式里将需要4个反斜杠\:前两个和后两个分别用于在编程语言里转义成反斜杠,转换成两个

反斜杠后再在正则表达式里转义成一个反斜杠。
print(re.match('\\\\', '\hello')) # 需要使用四个反斜杠来匹配

一个 \
Python里的原生字符串很好地解决了这个问题,有了原生字符串,你再也不用担心是不是漏写了反斜杠,写出来的表

达式也更直观。在Python 字符串前面添加r即可将字符串转换成为原生字符串。

print(re.match(r'\\', '\hello')) # 使用两个反斜杠即可匹配一个 \

 

2.查找方法的使用

  在Python中的查找匹配方法,常见的有下面四种,他们的用法大致相同,但是匹配出的结果却不同。 match方法(只匹配字符串开头)
search方法(扫描整个字符串,找到第一个匹配)
findall方法(扫描整个字符串,找到所有的匹配)
finditer方法(扫描整个字符串,找到所有的匹配,并返回一个可迭代对象)

 

(1)match方法的使用

  re.match尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回none。 函数语法:   re.match(pattern,string,flags=0)
  参数 描述   pattern 匹配的正则表达式   string 要匹配的字符串。   flags 标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等。
  我们可以使用group(num)函数来获取匹配的正则表达式。可以使用span()函数获取匹配到的元素的位置下标
1 import re 2 3 result1 = re.match(r'A', 'Ambitious') 4 result2 = re.match(r'b', 'Ambitious') 5 print(result1.group(0)) # 'A' 匹配到的元素 6 print(result1.span()) # (0,1) 匹配到的元素所在位置 7 print(result2) # None

 

(2)search方法的使用

  re.search 扫描整个字符串并返回第一个成功的匹配。 函数语法:   re.search(pattern, string, flags=0)

 

1 import re 2 3 result1 = re.search(r'Am', 'Ambitious') 4 result2 = re.search(r'ou', 'Ambitious') 5 6 print(result1.group(0)) # Am 7 print(result1.span()) # (0,2) 8 print(result2.group(0)) # ou 9 print(result2.span()) # (6,8)

 

(3)re.match与re.search的区别

re.match只匹配字符串的开始,如果字符串开始不符合正则表达式,则匹配失败,函数返回None;

而re.search匹配整个字符串,直到找到一个匹配。

 

1 result1 = re.search(r'is', 'He is a boy') 2 result2 = re.match(r'is', 'He is a boy') 3 print(result1) # <re.Match object; span=(3, 5), match='is'> (其中包含有空格) 4 print(result2) # None

 

(4)findall方法的使用

  在字符串中找到正则表达式所匹配的所有子串,并返回一个列表,如果没有找到匹配的,则返回空列表。   注意: match 和 search 是匹配一次 findall 匹配所有。 语法格式:   re.findall(pattern,string,flags=0)

 

1 ret = re.findall(r'\d+', 'he23ll34') 2 print(ret) # ['23', '34'] 3 ret = re.match(r'\d+', 'he23ll34') 4 print(ret) # None match只匹配开头,所以匹配到 5 ret = re.search(r'\d+', 'he23ll34') 6 print(ret) # <re.Match object; span=(2, 4), match='23'> search 只能匹配到一个数字

 

注意事项: findall方法匹配时,如果匹配规则里有分组,则只匹配分组数据。 ret = re.findall(r'\w+@(qq|126|163)\.com','123@qq.com;aa@163.com;bb@126.com') print(ret) # ['qq', '163', '126'] 只匹配到了分组里的内容

如果正则表达式里存在多个分组,则会把多个分组匹配成元组。 ret = re.findall(r'\w+@(qq|126|163)(\.com)','123@qq.com;aa@163.com;bb@126.com') print(ret) #[('qq', '.com'), ('163', '.com'), ('126', '.com')]

如果想要让findall匹配所有的内容,而不仅仅只是匹配正则表达式里的分组,可以使用 ?:来将分组标记为非捕获分组。 ret = re.findall(r'\w+@(?:qq|126|163)\.com','123@qq.com;aa@163.com;bb@126.com') print(ret) # ['123@qq.com', 'aa@163.com', 'bb@126.com']

 

(5)finditer方法的使用

  和 findall 类似,在字符串中找到正则表达式所匹配的所有子串,并把它们作为一个迭代器返回。

 

1 ret = re.finditer(r'\d+', 'tom56jack34') # 得到的结果是一个可迭代对象 2 for x in ret: # 遍历 ret 取出里面的每一项匹配 3 print(x.group(), x.span()) # 匹配对象里的group保存了匹配的结果 4 5 # >> 56 (3, 5) 6 # 34 (9, 11)

 

 

3.替换方法 sub()

Python中的re模块提供了re.sub用户替换字符串中的匹配项。 语法: re.sub(pattern,repl,string,count=0)
参数: pattern : 正则中的模式字符串。 repl : 替换的字符串,也可为一个函数。 string : 要被查找替换的原始字符串。 count : 模式匹配后替换的最大次数,默认 0 表示替换所有的匹配。

 

1 import re 2 3 phone = "2004-959-559 # 这是一个电话号码" 4 # 删除注释 5 num = re.sub(r'#.*$', "", phone) # 将#后面包含#一起替换“”。 6 print("电话号码 : ", num) # >> 电话号码 : 2004-959-559

 

1 import re 2 phone = "2004-959-559 # 这是一个电话号码" 3 # 移除非数字的内容 4 num = re.sub(r'\D', "", phone) # \D:非数字字符,将所有的非数字字符用“”代替 5 print("电话号码 : ", num) # >> 电话号码 : 2004959559

 

用函数替换

1 import re 2 # repl可以使用一个字符串用来表示替换后的结果以外,还可以传入一个函数。 3 # 分组的部分命名为test,将其中的数字筛选出来,转换成int类型,然后乘以2,转换成字符串,替换原来的字符 4 def double(string): # matched是要被查找替换的原始字符串。 5 test = int(string.group('test')) 6 print(string.group('test')) # 23 34 7 return str(test * 2) 8 9 10 print(re.sub(r'(?P<test>\d+)', double, 'hello23hi34')) # hello46hi68

 

4.正则表达式与split()(实用性强)

1 # 子字符串中搜索,如果遇到:或者,就分割,将分割的内容保存到列表中 2 result = re.split(r'[,:]', 'java:95,python99') 3 print(result) 4 5 # >> ['java', '95', 'python99']

 


__EOF__

本文作者Ambitious
本文链接https://www.cnblogs.com/ambitiousPlus/p/16098853.html
关于博主:评论和私信会在第一时间回复。或者直接私信我。
版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!
声援博主:如果您觉得文章对您有帮助,可以点击文章右下角推荐一下。您的鼓励是博主的最大动力!
posted @   Ambitious~  阅读(208)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
点击右上角即可分享
微信分享提示