Python正则表达式学习

1.Python的正则表达式需要用到re模块,有两个方法:match和search,match从第一个字符串开始匹配,search从任意字符串开始匹配,所以match比search严格。

如果匹配成功,返回regex类,不成功则返回None,regex中的group方法可以返回匹配项


import
re patt="123|456|798"#匹配多个pattern m=re.match("123|456","456123") #从开头开始匹配 r=re.search("123","456123")#从字符串的任意位置开始匹配 print m
print r

正则表达式个字符含义:

一般用的而比较多的:^表示字符的开头,$表示字符的结尾,\d表示一个数字,\w表示任意字符,包括字母和数字,+为出现次数大于1,{8}为出现8次

电话的正则表达式为“ ^1\d{10}$ ”,邮箱的为:“ ^\w+@\w+.com$ ”

2.单个字符(.),点号代表任一个字符,但不包括换行“\n” 和空字符串

patt=".hello"
print re.search(patt,"nrr\nhello")

3.字符集合[]

#encoding=utf-8
import re
patt="[12][78][ed][78]"
print re.search(patt,"17e74")
#结果不为None

 

4.查询字符串,并且返回指定的子串

例如我要查找{key,value}这样的字符串,但是我只需要获取value

key='aa'
str='dfsefse{key,value}dddddd'
ret = re.findall('%s,(.+)}'%key,str)

ret=['value']

用小括号把你希望re返回的子串括起来

其他常用的re方法

re.sub

re.sub用于替换字符串中的匹配项。下面一个例子将字符串中的空格 ' ' 替换成 '-' :  

import re
text = "JGood is a handsome boy, he is cool, clever, and so on..."
print re.sub(r'\s+', '-', text)

 re.sub的函数原型为:re.sub(pattern, repl, string, count)

其中第二个函数是替换后的字符串;本例中为'-'

第四个参数指替换个数。默认为0,表示每个匹配项都替换。

re.sub还允许使用函数对匹配项的替换进行复杂的处理。如:re.sub(r'\s', lambda m: '[' + m.group(0) + ']', text, 0);将字符串中的空格' '替换为'[ ]'。

re.split

  可以使用re.split来分割字符串,如:re.split(r'\s+', text);将字符串按空格分割成一个单词列表。

re.findall

  re.findall可以获取字符串中所有匹配的字符串。如:re.findall(r'\w*oo\w*', text);获取字符串中,包含'oo'的所有单词。

re.compile

  可以把正则表达式编译成一个正则表达式对象。可以把那些经常使用的正则表达式编译成正则表达式对象,这样可以提高一定的效率。下面是一个正则表达式对象的一个例子:

posted @ 2014-02-17 15:05  Xjng  阅读(1065)  评论(0编辑  收藏  举报