python之正则表达式

正则表达式（regular expression）一般应用于数据的筛选、查找。是比较常用的工具。正则表达式按照其用途可以分为几大类：匹配单个字符、匹配多个字符，匹配字符位置、匹配分组等。

一、正则表达式字符

1.匹配单个字符：

　　　　　　　　　　　　　　　　[^] 对中括号内的字符取反进行匹配

2. 匹配多个字符：

3.匹配位置字符：

4. 匹配分组：

5.其他：

二、注意点：

1. 关于 | 的使用：只能匹配到一个表达式，不能同时匹配两边表达式
例如：
a6="h(banana|pear)d"
s=re.match(a6，“hbananapeard”
print(s.group()) #报错
2. 关于？P<name>组号：命名时不能使用（？P<name>）报错。例如
a1="<((?P<H>)[a-zA-Z1-6]+)><(?P<H1>[a-zA-Z1-6]+)>"
b="<html><h2>fjslkfjwl , fjei</h2></html>"
s=re.match(a1,b)
print(s.group("H")) #结果空
print(s.group(1)) #结果是html

分析原因：加括号后，相当于又建立了一个分组，name分组内需要匹配的内容是空。

3、关于（）分组及组号命名

在正则中，括号具有特殊的应用。[]表示匹配（捕获）单个字符，{}表示多次匹配，（）表示对里面的内容进行分组。其命名为从左到右，组号0表示整个表达式本身，因此第一个括号的组号为1。当然也可以使用？P<name>对组号进行命名。

import re
str='235 dfs  654 5648fdssd'
pattern=re.compile(r'(\d+) (\d+)')
a=re.search(pattern,str)
print(a.group(2))#结果是5648

4.另一大难点是零宽断言。

零宽断言：一个正则表达式中，零宽断言部分匹配字符串成功后，正则的其他表达式，仍旧从零宽断言开始匹配的位置进行，零宽匹配不占用长度。

先行后行：先行是从断言标志的开头查找，后行是从断言标志的结尾处进行查找。
正向零宽断言：（？=regx）
负向零宽断言：（？！=regx）
实例：
import re
a="singER dancinger ldsjfldj"
b="(?=ing)[\S]*"#先行断言，先查找到ing的位置，然后从i的位置开始查找
b1="(?<=ing)[\S]*"#后行断言，先查找到ing的位置，然后从g的位置开始查找
c=re.findall(b,a)
print(c)
c=re.findall(b1,a)
print(c)

#思路要提取出标签的名字，因此需要用到零寬断言，另需要屏蔽< 和>,
#先使用后向断言可以从<后开始匹配，结尾使用使用先行断言可以匹配到>结束，
a1="<html><h1>fdf</h1></html>"
a2="<html>"
b="(?<=<)[^/].*?(?=>)"
c=re.findall(b,a1)
print(c)

5.正则表达式中常用函数：
search（）：查找字符串中的内容，找到即返回
find_all()：查找字符串中所有的内容，以列表形式展示
match()：从头开始匹配，不符合即匹配失败，与其他三个的查询方式完全不同：一个是查找，一个是匹配
sub()：查找并替换字符串中的内容

三、一些常用的正则表达式
  
  非负整数：0|([1-9][0-9]*)

  非零整数：-？[1-9]\d*

  整数：（-？[1-9]\d*）|0

  浮点数：-?(([1-9]\d*)|0)(\.\d*)?

  5-10位英文数字或下划线：\w{5，10}

  qq邮箱：[0-9a-zA-Z_]{4-20}@qq\.com

  qq、sina、126邮箱：[0-9a-zA-Z_]{4-20}@(qq|163|126|sina)\.com
 
  11位手机号码：^1\d{10}$
  
  提取一堆html标签中内容：<([a-zA-Z1-6]+)>.*?</\\1>

  微博内容：^#[^#]+#
  
  身份证：^[1-9]\d{16}[0-9x]

  日期：^[12]\d{3}-([1-9]|1[0-2])-([1-9]|[12][0-9]|3[01])$

posted @ 2019-02-24 10:04 fjc0000 阅读(148) 评论(0) 编辑收藏举报

刷新页面返回顶部

fjc0000

python之正则表达式

公告