正则表达式（re模块）

正则表达式，用来处理什么的呢？它有什么作用？

正则表达式是用来处理字符串匹配的！

Regular Expression (regex OR re ) 简洁表达一组字符串的表达式,是一种通用的字符串表达框架，针对字符串表达“简洁”和“特征”的思想，通过正则表达式可以判断字符串的特征归属（表达文本类型的特征）！

讲正题之前我们先来看一个例子：：https://reg.jd.com/reg/person?ReturnUrl=https%3A//www.jd.com/

这是京东的注册页面，打开页面我们就看到这些要求输入个人信息的提示。
假如我们随意的在手机号码这一栏输入一个11111111111，它会提示我们格式有误。
这个功能是怎么实现的呢？

假如现在你用python写一段代码，类似：

phone_number = input('please input your phone number ： ')

你怎么判断这个phone_number是合法的呢？

根据手机号码一共11位并且是只以13、14、15、18开头的数字这些特点，我们用python写了如下代码：

while True:
    phone_number = input('please input your phone number ： ')
    if len(phone_number) == 11 \
            and phone_number.isdigit()\
            and (phone_number.startswith('13') \
            or phone_number.startswith('14') \
            or phone_number.startswith('15') \
            or phone_number.startswith('18')):
        print('是合法的手机号码')
    else:
        print('不是合法的手机号码')

#以上是用Python语言实现的代码

判断手机号码是否合法2：

#判断手机号合不合法2
import re #借助正则模块
phone_number = input("Please input your phone number:")
if re.match("^(13|18|17|15)[0-9]{9}$",phone_number):
    print("是合法的手机号码！")
else:
    print("输入的手机号码不合法！")

对比上面的两种写法，此时此刻，我要问你你喜欢哪种方法呀？你肯定还是会说第一种，为什么呢？因为第一种不用学呀！
但是如果现在有一个文件，我让你从整个文件里匹配出所有的手机号码。你用python给我写个试试？
但是学了今天的技能之后，分分钟帮你搞定！

今天我们要学习python里的re模块和正则表达式，学会了这个就可以帮我们解决刚刚的疑问。正则表达式不仅在python领域，在整个编程届都占有举足轻重的地位。

（正则的规则在处理字符串上有非常大的优势）

正则表达式本身也和python没有什么关系(在Python中使用正则表达式就是使用re模块)，就是匹配字符串内容的一种规则。官方定义：正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。

一说规则我已经知道你很晕了，现在就让我们先来看一些实际的应用。在线测试工具 http://tool.chinaz.com/regex/首先你要知道的是，谈到正则，就只和字符串相关了。在我给你提供的工具中，你输入的每一个字都是一个字符串。

其次，如果在一个位置的一个值，不会出现什么变化，那么是不需要规则的。
　　比如你要用"1"去匹配"1"，或者用"2"去匹配"2"，直接就可以匹配上。这连python的字符串操作都可以轻松做到。
那么在之后我们更多要考虑的是在同一个位置上可以出现的字符的范围。

字符组 ： [字符组]
在同一个位置可能出现的各种字符组成了一个字符组，在正则表达式中用[]表示,一个中括号只能匹配一个字符。
字符分为很多类，比如数字、字母、标点等等。
假如你现在要求一个位置"只能出现一个数字",那么这个位置上的字符只能是0、1、2...9这10个数之一。

PS: A:65 a:97(ASCII码)

字符：

　　　　　　"\n":匹配一个换行符　　　　 "\b": 匹配一个单词的结尾 "\t": 匹配一个制表符

　　　　　　　"a|b":匹配字符a或字符b　　　　"()":匹配括号内的表达式，也表示一个组

. ^ $:

* + ? { }：

字符集［］［^］：

分组 ()与或｜［^］：

身份证号码是一个长度为15或18个字符的字符串，如果是15位则全部🈶️数字组成，首位不能为0；如果是18位，则前17位全部是数字，末位可能是数字或x，下面我们尝试用正则来表示

转义符 \：

在正则表达式中，有很多有特殊意义的是元字符，比如\n和\s等，如果要在正则中匹配正常的"\n"而不是"换行符"就需要对"\"进行转义，变成'\\'。

在python中，无论是正则表达式，还是待匹配的内容，都是以字符串的形式出现的，在字符串中\也有特殊的含义，本身还需要转义。所以如果匹配一次"\n",字符串中要写成'\\n'，那么正则里就要写成"\\\\n",这样就太麻烦了。这个时候我们就用到了r'\n'这个概念，此时的正则是r'\\n'就可以了。

贪婪匹配：

贪婪匹配：在满足匹配时，匹配尽可能长的字符串，默认情况下，采用贪婪匹配

几个常用的非贪婪匹配Pattern

*? 重复任意次，但尽可能少重复
+? 重复1次或更多次，但尽可能少重复
?? 重复0次或1次，但尽可能少重复
{n,m}? 重复n到m次，但尽可能少重复
{n,}? 重复n次以上，但尽可能少重复

.*?的用法：

. 是任意字符
* 是取 0 至 无限长度
? 是非贪婪模式。
何在一起就是 取尽量少的任意字符，一般不会这么单独写，他大多用在：
.*?x

就是取前面任意长度的字符，直到一个x出现

re模块下的常用方法:

findall()方法：
import re
ret = re.findall("a","span python") # 返回所有满足匹配条件的结果,放在列表里
print(ret)

ret = re.findall("[a-z]+","span python")
print(ret)

####
['a']
['span', 'python']

search()方法：
import re
ret = re.search("a","span python").group()
print(ret)
# 函数会在字符串内查找模式匹配,只到找到第一个匹配,然后返回一个包含匹配信息的对象,该对象可以
# 通过调用group()方法得到匹配的字符串,如果字符串没有匹配，则返回None。
# a

或者：

import re
ret = re.search("a","span python")
if ret:
    print(ret.group())

match()方法：
import re
ret = re.match("s","span python") # 同search,只在字符串开始处进行匹配，如果能匹配上就返回正则的字符，否则返回None
if ret:
    print(ret.group())
#
s

split()方法：

import re
ret = re.split('[ab]', 'abcd')  # 先按'a'分割得到''和'bcd',在对''和'bcd'分别按'b'分割
print(ret)  # ['', '', 'cd']

sub()和subn()方法：

ret = re.sub('\d', 'H', 'eva3egon4yuan4',1)#将数字替换成'H'，参数1表示只替换1个
print(ret)  #evaHegon4yuan4

ret = re.subn('\d', 'H', 'eva3egon4yuan4')#将数字替换成'H'，返回元组(替换的结果,替换了多少次)
print(ret)  #('evaHegonHyuanH', 3)

compile()方法：

obj = re.compile('\d{3}')  #将正则表达式编译成为一个 正则表达式对象，规则要匹配的是3个数字
ret = obj.search('abc123eeee') #正则表达式对象调用search，参数为待匹配的字符串
print(ret.group())  #结果 ：123

finditer()方法：

import re
ret = re.finditer('\d', 'ds3sy4784a')   #finditer返回一个存放匹配结果的迭代器（返回一个迭代器是为了节省内存）
print(ret)  # <callable_iterator object at 0x10195f940>
print(next(ret).group())  #查看第一个结果
print(next(ret).group())  #查看第二个结果
print([i.group() for i in ret])  #查看剩余的左右结果

####
<callable_iterator object at 0x0000025208014A20>
3
4
['7', '8', '4']

注意：

1 findall的优先级查询：

ret = re.findall('www.(baidu|oldboy).com', 'www.oldboy.com')
print(ret)  # ['oldboy'] 这是因为findall会优先匹配分组里内容并将其返回,如果想要匹配结果,取消权限即可

ret = re.findall('www.(?:baidu|oldboy).com', 'www.oldboy.com') # “？:”取消权限
print(ret)  # ['www.oldboy.com']

2 split的优先级查询：

ret=re.split("\d+","eva3egon4yuan")
print(ret) #结果 ： ['eva', 'egon', 'yuan']

ret=re.split("(\d+)","eva3egon4yuan")
print(ret) #结果 ： ['eva', '3', 'egon', '4', 'yuan']

#在匹配部分加上分组（）之后所切出的结果是不同的，
#没有（）的没有保留所匹配的项，但是有（）的却能够保留了匹配的项，
#这个在某些需要保留匹配部分的使用过程是非常重要的。

3.flags

flags有很多可选值：

re.I(IGNORECASE)忽略大小写，括号内是完整的写法
re.M(MULTILINE)多行模式，改变^和$的行为
re.S(DOTALL)点可以匹配任意字符，包括换行符
re.L(LOCALE)做本地化识别的匹配，表示特殊字符集 \w, \W, \b, \B, \s, \S 依赖于当前环境，不推荐使用
re.U(UNICODE) 使用\w \W \s \S \d \D使用取决于unicode定义的字符属性。在python3中默认使用该flag
re.X(VERBOSE)冗长模式，该模式下pattern字符串可以是多行的，忽略空白字符，并可以添加注释

###########

温故知新：

search（）的加强用法：

##One：
import re
ret = re.search("\d(?P<name>\w)","span123python") #search 对整个字符串进行查找，找到就返回，找不到就返回None
if ret:
    print(ret.group())
    print(ret.group("name")) #分组内容 .group("name") OR .group(1)
    print(ret.group(1))
###
12
2
2

#Two
import re
ret = re.search("\d(?P<name>\w)+","span123python") #search 对整个字符串进行查找，找到就返回，找不到就返回None
if ret:
    print(ret.group())
    print(ret.group("name")) #分组内容 .group("name") OR .group(1)
    print(ret.group(1))
##
123python
n
n

##Three
import re
ret = re.search("\d(?P<name>\w+)","span123python") #search 对整个字符串进行查找，找到就返回，找不到就返回None
if ret:
    print(ret.group())
    print(ret.group("name")) #分组内容 .group("name") OR .group(1)
    print(ret.group(1))

##
123python
23python
23python

综合练习与扩展：

1、匹配标签import re



ret = re.search("<(?P<tag_name>\w+)>\w+</(?P=tag_name)>","<h1>hello</h1>")
#还可以在分组中利用?<name>的形式给分组起名字
#获取的匹配结果可以直接用group('名字')拿到对应的值
print(ret.group('tag_name'))  #结果 ：h1
print(ret.group())  #结果 ：<h1>hello</h1>

ret = re.search(r"<(\w+)>\w+</\1>","<h1>hello</h1>")
#如果不给组起名字，也可以用\序号来找到对应的组，表示要找的内容和前面的组内容一致
#获取的匹配结果可以直接用group(序号)拿到对应的值
print(ret.group(1))
print(ret.group())  #结果 ：<h1>hello</h1>

####
h1
<h1>hello</h1>
####
h1
<h1>hello</h1>

2、匹配整数

import re

ret=re.findall(r"\d+","1-2*(60+(-40.35/5)-(-4*3))")
print(ret) #['1', '2', '60', '40', '35', '5', '4', '3']
ret=re.findall(r"-?\d+\.\d*|(-?\d+)","1-2*(60+(-40.35/5)-(-4*3))")
print(ret) #['1', '-2', '60', '', '5', '-4', '3']
ret.remove("")
print(ret) #['1', '-2', '60', '5', '-4', '3']

3、数字匹配

1、 匹配一段文本中的每行的邮箱
      http://blog.csdn.net/make164492212/article/details/51656638

2、 匹配一段文本中的每行的时间字符串，比如：‘1990-07-12’；

   分别取出1年的12个月（^(0?[1-9]|1[0-2])$）、
   一个月的31天：^((0?[1-9])|((1|2)[0-9])|30|31)$

3、 匹配qq号。(腾讯QQ号从10000开始)  ［1,9］[0,9]{4,}

4、 匹配一个浮点数。       ^(-?\d+)(\.\d+)?$   或者  -?\d+\.?\d*

5、 匹配汉字。             ^[\u4e00-\u9fa5]{0,}$ 

6、 匹配出所有整数

posted @ 2018-12-03 00:22 shaopan 阅读(228) 评论(0) 收藏举报

刷新页面返回顶部