python编程基础之三十八

正则表达式：正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。

需要引入内置模块re
缺点：效率低下，能用字符串方法完成尽量使用字符串的方法
优点：编码简单

原子　　　　　　含义

\d　　　　　　0-9中的任意一个字符

\D　　　　　　排除0-9

\s　　　　　　 \t,\n,\r,空格等字符中的一个

\S　　　　　　排除\s

\w　　　　　　数字字母下划线

\W　　　　　排除\w

[]　　　　　　自定义的原子表

[^]　　　　　　排除自定义的原子表

^　　　　　　行首，

￥　　　　　　行尾

.　　　　　　表示出\n以外的任何字符，

\b　　　　　　词边界

\B　　　　　　非词边界

\A　　　　　　字符串首

\Z　　　　　　字符串结尾

- 　　　　　表示域，一个范围，比如1-9,1到9中的任意一个

-----------------------------------------------

元字符　　　　含义

{}　　　　　　　表示重复原子次数

{m}　　　　　　表示重复原子m次

{m,n}　　　　　表示重复原子最少m次，最多n次

{m,}　　　　　表示重复原子最少m次，无上限

（）　　　　　改变优先级，取子元素

* 　　　　　　连续出现重复至少0次，意思出没出现没关系，但是存在贪婪性，

+ 　　　　　　至少出现一次，存在贪婪性

?　　　　　　出现0次或1次

*?,+? 　　　　取消贪婪

|　　　　　　　或　　　　　　　

----------------------------------------------------------------------

模式修正符

修饰符　　　　　　含义

re.S　　　　　　使 . 匹配所有字符

re.L　　　　　　本地识别化

re.U　　　　　　根据Unicode字符解析字符吗，会影响\b,\B,\w,\W

re.l　　　　　　不区分大小写

re.M　　　　　　多行匹配

------------------------------------------------------------------------

模式字符串一定要使用原字符串，也就是用r开头的字符串。r'www'
严格区分大小写
如果正则表达式中有{，}，[,],-,?,*,|^,$,.等做普通字符，则要将其转义

正则常用的函数方法

re.match()字符串开头开始匹配，只匹配开头

re.search()从开始开始匹配，但是不限于只匹配开头，中间的也行

re.findall()找出所有符合规则的并以列表的形式返回

re.split()根据模式拆分

re.sub,re.subn:在目标字符串中以正则表达式的规则匹配字符串，再把他们替换成指定的字符串。可以指定替换的次数,

如果不指定，替换所有的匹配字符串

前者返回一个替换后的字符串，后者返回一个元组，第一个元素替换后的字符串

re.group()和re.groups():用于提取子元素，模式中一个括号就是一个子元素，group和groups只能在match和search方法里使用，

通过返回的match object获取子元素。在模式串和sub和subn中的替换字符串中可以使用\1，\2，\3....来引用子元素

compile():就是把规则存储起来，不需要多次解释，提高运行速度

posted @ 2018-08-11 14:25 嗨哥-higer 阅读(150) 评论(0) 收藏举报

刷新页面返回顶部

嗨哥-higer

python编程基础之三十八

公告