python的正则re模块
一. python的正则
python的正则模块re,是其内置模块,可以直接导入,即import re。python的正则和其他应用的正则及其相似,有其他基础的话,学起来还是比较简单的。
二. 正则前r说明
由于正则式的规则也是由一个字符串定义的,而在正则式中大量使用转义字符 ’/’ ,如果不用 raw 字符串,则在需要写一个 ’/’ 的地方,你必须得写成 ’//’, 那么在要从目标字符串中匹配一个 ’/’ 的时候,你就得写上 4 个 ’/’ 成为 ’////’ !这当然很麻烦,也不直观,所以一般都使用 r’’ 来定义规则字符串。当然,某些情况下,可能不用 raw 字符串比较好。
来自 <http://www.cnblogs.com/dreamer-fish/p/5282679.html>
三. 正则里面的常用函数
1. re.match函数
用法:re.match(pattern, string, flags=0)
使用说明:re.match 尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回none。
2. re.search方法:一般使用这个
用法:re.search(pattern, string, flags=0)
使用说明:re.search 扫描整个字符串并返回第一个成功的匹配。
3. re.match与re.search的区别
re.match只匹配字符串的开始,如果字符串开始不符合正则表达式,则匹配失败,函数返回None;而re.search匹配整个字符串,直到找到一个匹配。
4. re.sub用于替换字符串中的替换项
用法:re.sub(pattern, repl, string, count=0, flags=0)
repl:替换的字符串,也可以是一个函数
使用说明:count=0,替换的最大次数,默认0替换到所有的匹配项
#!/usr/bin/python # -*- coding: UTF-8 -*- import re # 将匹配的数字乘于 2 def double(matched): value = int(matched.group('value')) return str(value * 2) s = 'A23G4HFD567' print(re.sub('(?P<value>\d+)', double, s)) 来自 <http://www.runoob.com/python/python-reg-expressions.html>
5. re.findall
用法:re.findall(pattern,string,flags=0)
使用说明:遍历匹配,可以获取字符串中所有匹配的字符串,返回一个列表
6. re.compile
用法:re.compile(pattern, flags=0):
使用说明:compile 函数根据一个模式字符串和可选的标志参数生成一个正则表达式对象。该对象拥有一系列方法用于正则表达式匹配和替换
7. re.split
用法:re.split(pattern, string, maxsplit=0, flags=0)
使用说明:能够匹配的字符串将string分割后返回列表
str='12sdf123asdfadsf245' list=re.split(r'\D+',str,maxsplit=1) print(list)
8. re.finditer
用法:re.finditer(pattern,string,flags=0)
使用说明:搜索string,返回一个顺序访问每一个匹配结果(match对象)的迭代器。找到RE匹配的所以子串,并把他们作为一个迭代器返回
四. 正则表达式pattern
五. 正则里面的flag,即修饰符,可选标志
修饰符 描述
re.I 使匹配对大小写不敏感,大写的ignore
re.L 做本地化识别(locale-aware)匹配
re.M 多行匹配,影响 ^ 和 $
re.S 使 . 匹配包括换行在内的所有字符
re.U 根据Unicode字符集解析字符。这个标志影响 \w, \W, \b, \B.
re.X 该标志通过给予你更灵活的格式以便你将正则表达式写得更易于理解。
来自 <http://www.runoob.com/python/python-reg-expressions.html>
六. 正则中的分组group
pattern可包含括号,包含的内容将作为一个分组内容
group和groups是两个不同的函数。
m.groups() 返回所有括号匹配的字符,以tuple格式。
m.group() == m.group(0) == 所有匹配的字符
一般,m.group(N) 返回第N组括号匹配的字符。
而m.group() == m.group(0) == 所有匹配的字符,与括号无关,这个是API规定的
m.groups() == (m.group(0), m.group(1), ...)
起名的group
import re
str="Doe,John:555-1212"
match=re.search(r'(?P<last>\w+),(?P<first>\w+):(?P<phone>\S+)',str,re.I)
print(match.group('last'))#Doe
print(match.group('John'))#Doe
print(match.group('phone'))#555-1212
七. 常用的正则表达式
IP地址:IP_compile=re.compile(r'^([1]?\d\d?|2[0-4]\d|25[0-5])\.([1]?\d\d?|2[0-4]\d|25[0-5])\.([1]?\d\d?|2[0-4]\d|25[0-5])\.([1]?\d\d?|2[0-4]\d|25[0-5])$')
手机号码匹配 :tel_compile=re.compile(r'^[1][3578][0-9]{9}$')
密码正则可参考我的另一篇文章:http://www.cnblogs.com/skiler/p/6652924.html