python（十五）

re模块

就其本质而言，正则表达式（或 RE）是一种小型的、高度专业化的编程语言，（在Python中）它内嵌在Python中，并通过 re 模块实现。正则表达式模式被编译成一系列的字节码，然后由用 C 编写的匹配引擎执行。

字符匹配（普通字符，元字符）：

1 普通字符：大多数字符和字母都会和自身匹配
>>> re.findall('alvin','yuanaleSxalexwupeiqi')
['alvin']

2 元字符：. ^ $ * + ? { } [ ] | ( ) \

元字符

. ^ $

import re

ret1=re.findall('李.','李爽\nalex\n李四\negon\nalvin\n李二')

ret2=re.findall('^李.','李爽\nalex\n李四\negon\nalvin\n李二')

ret3=re.findall('李.$','李爽\nalex\n李四\negon\nalvin\n李二')

* + ? { }

import re

ret1=re.findall('李.*','李杰\nalex\n李莲英\negon\nalvin\n李二棍子')
ret2=re.findall('李.+','李杰\nalex\n李莲英\negon\nalvin\n李二棍子')

ret3=re.findall('(李.{1,2})\n','李杰\nalex\n李莲英\negon\nalvin\n李二棍子') # 设定优先级的原因

# 匹配一个数字包括整型和浮点型
ret4=re.findall('\d+\.?\d*','12.45,34,0.05,109')

print(ret4)

注意：前面的*,+,?等都是贪婪匹配，也就是尽可能匹配，后面加?号使其变成惰性匹配

ret=re.findall('131\d+?','1312312312')
print(ret)  ['1312']

转义符 \

1、反斜杠后边跟元字符去除特殊功能,比如\.

2、反斜杠后边跟普通字符实现特殊功能,比如\d

\d  匹配任何十进制数；      它相当于类 [0-9]。
\D  匹配任何非数字字符；    它相当于类 [^0-9]。
\s  匹配任何空白字符；      它相当于类 [ \t\n\r\f\v]。
\S  匹配任何非空白字符；    它相当于类 [^ \t\n\r\f\v]。
\w  匹配任何字母数字字符；   它相当于类 [a-zA-Z0-9_]。
\W  匹配任何非字母数字字符； 它相当于类 [^a-zA-Z0-9_]
\b  匹配一个特殊字符边界，比如空格 ，&，＃等

让我们看一下\b的应用：

ret=re.findall(r'I\b','I am LIST')
print(ret)#['I']

接下来我们试着匹配下“abc\le”中的‘c\l’:

import re

ret=re.findall('c\l','abc\le')
print(ret)#[]

ret=re.findall('c\\l','abc\le')
print(ret)#[]

ret=re.findall('c\\\\l','abc\le')
print(ret)#[]

ret=re.findall(r'c\\l','abc\le')
print(ret)#[]


# \b是特殊符号所以,'abc\be'前面需要加r
ret=re.findall(r'c\\b',r'abc\be')
print(ret)#[]

分组 ()

m = re.findall(r'(ad)+', 'add')
print(m)
 
ret=re.search('(?P<id>\d{2})/(?P<name>\w{3})','23/com')
print(ret.group())#23/com
print(ret.group('id'))#23

元字符之｜

ret=re.search('(ab)|\d','rabhdg8sd')
print(ret.group())#ab

字符集［］

#--------------------------------------------字符集[]
ret=re.findall('a[bc]d','acd')
print(ret)#['acd']
 
ret=re.findall('[a-z]','acd')
print(ret)#['a', 'c', 'd']
 
ret=re.findall('[.*+]','a.cd+')
print(ret)#['.', '+']
 
#在字符集里有功能的符号: - ^ \
 
ret=re.findall('[1-9]','45dha3')
print(ret)#['4', '5', '3']
 
ret=re.findall('[^ab]','45bdha3')
print(ret)#['4', '5', 'd', 'h', '3']
 
ret=re.findall('[\d]','45bdha3')
print(ret)#['4', '5', '3']

posted @ 2017-06-26 13:33 IT乐仔阅读(135) 评论(0) 收藏举报

刷新页面返回顶部

IT乐仔