python的re正则表达

正则表达式，又称正规表示式、正规表示法、正规表达式、规则表达式、常规表示法（英语：Regular Expression，在代码中常简写为regex、regexp或RE），是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串。在很多文本编辑器里，正则表达式通常被用来检索、替换那些匹配某个模式的文本。

Regular Expression的“Regular”一般被译为“正则”、“正规”、“常规”。此处的“Regular”即是“规则”、“规律”的意思，Regular Expression即“描述某种规则的表达式”之意。

表示字符

字符	功能
.	匹配任意1个字符（除了\n）
[ ]	匹配[ ]中列举的字符
\d	匹配数字，即0-9
\D	匹配非数字，即不是数字
\s	匹配空白，即空格，tab键
\S	匹配非空白
\w	匹配单词字符，即a-z、A-Z、0-9、_
\W	匹配非单词字符

表示数量

匹配多个字符的相关格式

字符	功能
*	匹配前一个字符出现0次或者无限次，即可有可无
+	匹配前一个字符出现1次或者无限次，即至少有1次
?	匹配前一个字符出现1次或者0次，即要么有1次，要么没有
{m}	匹配前一个字符出现m次
{m,}	匹配前一个字符至少出现m次
{m,n}	匹配前一个字符出现从m到n次

表示边界

字符	功能
^	匹配字符串开头
$	匹配字符串结尾
\b	匹配一个单词的边界
\B	匹配非单词边界

匹配分组

字符	功能
\|	匹配左右任意一个表达式
(ab)	将括号中字符作为一个分组
`\num`	引用分组num匹配到的字符串
`(?P<name>)`	分组起别名
(?P=name)	引用别名为name分组匹配到的字符串

在Python中需要通过正则表达式对字符串进行匹配的时候，可以使用一个模块，名字为re

python的re模块常用方法：

re.match

是用来进行正则匹配检查的方法，若字符串匹配正则表达式，则match方法返回匹配对象（Match Object），否则返回None（注意不是空字符串""）。re.match(正则表达式,要匹配的字符串)

re.search

re.search函数会在字符串内查找模式匹配,只到找到第一个匹配然后返回，如果字符串没有匹配，则返回None。

re.sub

将匹配到的字符串替换，有三个参数(正则表达式，替换成的内容，原字符串)

re.split

　　可以使用re.split来分割字符串，有两个参数(分割条件，要分割的字符串)。会分隔成一个列表

re.findall

　　re.findall可以获取字符串中所有匹配的字符串。有两个参数(匹配条件，要匹配的字符串)

下面是几道练习题

# 有一批网址：
#
# http://www.interoem.com/messageinfo.asp?id=35
# http://3995503.com/class/class09/news_show.asp?id=14
# http://lib.wzmc.edu.cn/news/onews.asp?id=769
# http://www.zy-ls.com/alfx.asp?newsid=377&id=6
# http://www.fincm.com/newslist.asp?id=415
# 需要 正则后为：
#
# http://www.interoem.com/
# http://3995503.com/
# http://lib.wzmc.edu.cn/
# http://www.zy-ls.com/
# http://www.fincm.com/
import re
geturl = re.findall(r'http:\/\/.*?\/',"http://www.fincm.com/newslist.asp?id=415")
print(geturl)

提取主要网址

import re
#提取url地址
imgurl = '<img data-original="https://rpic.douyucdn.cn/appCovers/2016/11/13/1213973_201611131917_small.jpg" src="https://rpic.douyucdn.cn/appCovers/2016/11/13/1213973_201611131917_small.jpg" style="display: inline;">'

url = re.split(r'"',imgurl)
i = 1
for ls in url:
    if(i%2 == 0):
        if(re.match("^(http|https)",ls)):
            print(ls)
    i+=1

提取url

我觉得我提取url这里思路比较奇特，首先是分隔，然后是匹配。当然这可能不是很准确，还是用下面这段代码好些：

get_http = re.findall(r'https:\/\/.*?"',imgurl)
for url in get_http:
    x = re.sub('"',"",url)
    print(x)

import re
# 匹配出163的邮箱地址，且@符号之前有4到20位，例如hello@163.com
def ismail(mail):
    if re.match("[\w]{4,20}@163\.com$",mail):
        return True
    else:
        return False
mail = "123123@163.com"
print(ismail(mail))

这里需要注意的东西有什么呢？就是要以com结尾，用$符号来表明是结尾。不然12312@163.com123123也就能通过，因为它确实有那一段能匹配的正则。

正则用得还是不熟悉。头疼头疼！！！

posted on 2017-10-11 21:42 柯腾阅读(411) 评论(0) 编辑收藏举报