Python正则表达式学习
1.Python的正则表达式需要用到re模块,有两个方法:match和search,match从第一个字符串开始匹配,search从任意字符串开始匹配,所以match比search严格。
如果匹配成功,返回regex类,不成功则返回None,regex中的group方法可以返回匹配项
import re patt="123|456|798"#匹配多个pattern m=re.match("123|456","456123") #从开头开始匹配 r=re.search("123","456123")#从字符串的任意位置开始匹配 print m
print r
正则表达式个字符含义:
一般用的而比较多的:^表示字符的开头,$表示字符的结尾,\d表示一个数字,\w表示任意字符,包括字母和数字,+为出现次数大于1,{8}为出现8次
电话的正则表达式为“ ^1\d{10}$ ”,邮箱的为:“ ^\w+@\w+.com$ ”
2.单个字符(.),点号代表任一个字符,但不包括换行“\n” 和空字符串
patt=".hello" print re.search(patt,"nrr\nhello")
3.字符集合[]
#encoding=utf-8 import re patt="[12][78][ed][78]" print re.search(patt,"17e74")
#结果不为None
4.查询字符串,并且返回指定的子串
例如我要查找{key,value}这样的字符串,但是我只需要获取value
key='aa' str='dfsefse{key,value}dddddd' ret = re.findall('%s,(.+)}'%key,str) ret=['value']
用小括号把你希望re返回的子串括起来
其他常用的re方法
re.sub
re.sub用于替换字符串中的匹配项。下面一个例子将字符串中的空格 ' ' 替换成 '-' :
import re
text = "JGood is a handsome boy, he is cool, clever, and so on..."
print re.sub(r'\s+', '-', text)
re.sub的函数原型为:re.sub(pattern, repl, string, count)
其中第二个函数是替换后的字符串;本例中为'-'
第四个参数指替换个数。默认为0,表示每个匹配项都替换。
re.sub还允许使用函数对匹配项的替换进行复杂的处理。如:re.sub(r'\s', lambda m: '[' + m.group(0) + ']', text, 0);将字符串中的空格' '替换为'[ ]'。
re.split
可以使用re.split来分割字符串,如:re.split(r'\s+', text);将字符串按空格分割成一个单词列表。
re.findall
re.findall可以获取字符串中所有匹配的字符串。如:re.findall(r'\w*oo\w*', text);获取字符串中,包含'oo'的所有单词。
re.compile
可以把正则表达式编译成一个正则表达式对象。可以把那些经常使用的正则表达式编译成正则表达式对象,这样可以提高一定的效率。下面是一个正则表达式对象的一个例子: