正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配。
正则表达式非python独有,python 提供了正则表达式的接口,re模块
一、正则匹配字符简介
模式 | 描述 |
\d | 匹配数字 |
\D | 匹配非数字 |
\w | 匹配字母数字及下划线 |
\W | 匹配非字母数字下划线 |
\s | 匹配任意空白字符 |
\A | 匹配字符串开始 |
\Z | 匹配字符串结束,如果存在换行,只匹配到换行前最后一个字符串 |
\z | 匹配字符串结束 |
\G | 匹配最后匹配完成的位置 |
\n | 匹配换行符 |
\t | 匹配制表符 |
^ | 从字符串的开头匹配 |
$ | 匹配到字符串的末尾 |
. | 匹配任意字符,换行符除外,但是当re.DOTALL标记被指定时,则可以匹配任意字符 |
[...] | 用来表示一组字符,例:[abc]匹配'a','b','c' |
[^...] | 匹配不存在[]中的字符,例[^abc],匹配a,b,c之外的字符 |
* | 匹配0个或多个的表达式 |
+ | 匹配一个或多个的表达式 |
? | 匹配0个或1个有前面的正则表达式定义的片段,非贪婪方式 |
{n} | 精确匹配n个前面表达式 |
{n,m} | 匹配n到mci由前面的正则表达式定义的片段,贪婪方式 |
a|b | 匹配a或者b |
() | 匹配括号内的表达式,也表示一个组(match,search) |
二、re模块常用的一些方法
re.match(pattern,content,flags)
pattern:匹配规则
content:要匹配的字符串
flags:标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等。
返回结果:匹配到则返回一个match对象,匹配失败返回None
获取对象方法
group(n): 匹配的整个表达式的字符串,group() 可以一次输入多个组号,在这种情况下它将返回一个包含那些组所对应值的元组。
groups():返回一个包含所有小组字符串的元组
span():匹配的起始到结束位置
局限性:1.match方法是从字符串起始位置开始进行匹配,若是起始位置匹配不到则直接结束
2.match 方法匹配到内容后就结束匹配,无法获取多个
实例如下:
import re content="abc123abc234" result = re.match('abc[0-9]+',content) #从开头匹配 result1 = re.match('bc[0-9]+',content) #不从开头匹配 print 'result=',result.group() print 'result1=',result1
结果:
result= abc123
result1= None
实例中的abc[0-9]类型,应该有多个,但是因为match 匹配到就直接结束,导致只有一个结果返回,并且result1 由于并不是从开头进行匹配,所以没有结果返回
re.search(pattern,content,flags=0)
与match 相比,search的主要区别是扫描整个字符串去匹配目标。匹配成功后返回
实例如下
import re content="abc123abc234" result = re.search('abc[0-9]+',content) #从开头匹配 result1 = re.search('bc[0-9]+',content) #不从开头匹配 print 'result=',result.group() print 'result1=',result1.group()
结果如下
result= abc123
result1= bc123
re.sub(pattern,repl,content,count)
pattern:匹配规则
repl:替换的字符串,也可以为一个函数
content:要被替换查找的字符串
count:替换的次数,默认替换全部
实例
import re content="abc123abc234" result = re.sub('(abc)','',content,1) #删除abc字符串1次 result1 = re.sub('(abc)','',content) #删除全部abc字符串 print 'result=',result print 'result1=',result1
结果
result= 123abc234
result1= 123234
实例
import re def double(match): vaule = int(match.group()) return str(vaule*2) content="abc123abc234" result = re.sub('([0-9])',double,content) #将字符串的数字乘以2 print 'result=',result
结果
result= abc246abc468
re.findall(pattern,content,flags=0)
findall 方法与search的主要差别在与findall 能查找出所有与之匹配的字符串
实例
import re content="abc123abc234" result = re.findall('([0-9]+)',content) #匹配数字 print 'result=',result
结果
result= ['123', '234']
以上就是python正则表达式常用的一些方法,以及正则表达是中常用的一些匹配规则