Python——正则模块

1、re模块是用来操作正则表达式

2、正则表达式——用来字符串匹配的

（1）字符组：[字符组] 例如[0123fdsa456*/-]

　　　　　　　　　　　　　[0-9] 等同于[0123456789]

　　　　　　　　　　　　　[a-z] 匹配小写字母

　　　　　　　　　　　　　[A-Z]匹配大写字母

（2）特殊的元字符

.	匹配除换行符以外的任意字符
\w	匹配字母或数字或下划线
\s	匹配任意的空白符
\d	匹配数字
\n	匹配一个换行符
\t	匹配一个制表符
\b	匹配单词的结尾 g\b以g结尾的单词
^	匹配字符串的开始 ^e
$	匹配字符串的结尾 w$
\W	匹配非字母、数字、下划线
\D	匹配非数字
\S	匹配非空白符
a\|b	匹配字符a或b 先长字符后短字符
（）	分组
[^abc]	除了abc以外都匹配

（3）量词

*	匹配0次或多次
+	匹配1次或多次
？	匹配0次或1次
｛n｝	重复多次
｛n，｝	重复n次或更多次
｛n,m｝	重复n到m次

（4）转义符 \

注：r"\\d" 表示取消转义，直接显示出本来的字符

3、使用re模块方法

# -*- coding:UTf-8 -*-
#findall 是寻找所有匹配的字符
#参数一：需要匹配的字符，正则规则
#参数二：带匹配的字符串
import re
re = re.findall('e','eva egon yuan')
print(re)
#从前往后，找到一个就返回，返回，返回的变量需要调用group才能拿到结果
#如果没有找到，那么返回NONE,调用gruop会报错
re = re.search('e','eva egon yuan')
if re :
    print(re.group())
#natch是从头开始匹配，同样调用group方法
re = re.match('e','eva egon yuan')
if re :
    print(re.group())
#split方法，分割
re = re.split('[ab]','adbc') #利用正则关系进行分割

#sub 方法，替换
re = re.sub('\d','H','efaflkdjafhg',1)#利用正则规则进行替换，将数字替换成H

#subn方法
re = re.subn('\d','H','fdahglaag')#将数字地换成H，返回元祖，替换了几次

#compile方法,编译规则
obj = re.compile('\d{3') #将正则表达式编译成一个正则表达式对象，建立规则
re = obj.search('fdafsafdsa12313')
print(re.group())

#finditer 返回一个存放匹配结果的迭代器
re = re.findall('\d','fwqre12314')
print (next(re).group) #查询第一个结果
for i in re：
    print（i.group())
#flags方法
re.I 忽略大小写，括号内是完整的写法
re.M 多行模式，改变^和$的行为
re.S 可以匹配任意字符，包括换行符
re.L 做本地化识别任意字符，表示特殊字符集
re.U 使用\w \W \s \S \d \D 使用取决于unicode定义的字符属性，python3中默认使用
re.X 冗长模式，改模式下pattern字符串是多行的，忽略空白符并可以添加注释

4、group()，里面可以加入整数值，表示取局部分组里的数值，分组的意思是正则表达公式里的分组

5、正则表达式中‘？’ 有三种功能，（1）单独表示匹配0次或1次（2）放在字符串后面表示惰性匹配，表示匹配最少的次数（3）跟findall使用，在字符串内，表示取消优先级查询

6、在分组的时候，findall，split 是有分组优先级的，需要特别注意一下

posted @ 2018-10-03 10:32 澄心元素阅读(219) 评论(0) 收藏举报

刷新页面返回顶部