python正则表达式-re

正则表达式是处理字符串的强大工具，能够实现字符串的检索、替换、匹配验证等

正则表达式常用匹配规则如下：

模式                          描述
\w                  匹配字符、数字以及下划线的字符
\W                  匹配不是字符、数字以及下划线的字符
\s                  匹配任意空白字符
\S                  匹配任意非空白字符
\d                  匹配任意数字
\D                  匹配任意非数字的字符
\A                  匹配字符串开头
\Z                  匹配字符串结尾，若存在换行则只匹配到换行前的结束字符串
\z                  匹配字符串结尾，若存在换行还会匹配换行符
\G                  匹配最后匹配完成的位置
\n                  匹配一个换行符
\t                  匹配一个制表符
^                   匹配一行字符串的开头
$                   匹配一行字符串的结尾
.                   匹配任意字符，除了换行符，当re.DOTALL标记指定时可以匹配包括换行符的任意字符
[...]               用来表示一组字符，，单独列出，比如[awk]匹配a、m或k
[^...]              不在[]中的字符，比如[^abc]匹配除了abc之外的字符
*                   匹配零个或多个表达式
+                   匹配一个或多个表达式
？                  匹配0个或1个前面的正则表达式定义的片段，非贪婪模式
{n}                 精确匹配n个前面的表达式
{n,m}               匹配n到m次由前面正则表达式定义的片段，非贪婪模式
a|b                 匹配a或b
()                  匹配括号内的表达式，也表示一个组

匹配方法match():传入匹配的字符串以及正则表达式，从字符串起始开始匹配，一旦开头不匹配，则匹配失败，若匹配成功则返回结果，否则返回None

import re

content = 'Hello 123 4567 World_This is a Regex Demo'
result = re.match('^Hello\s\d\d\d\s\d{4}\s\w{10}',content)
print(result)
#输出匹配到的内容
print(result.group())
#输出匹配范围
print(result.span())

结果：
<_sre.SRE_Match object; span=(0, 25), match='Hello 123 4567 World_This'>
Hello 123 4567 World_This
(0, 25)

View Code

匹配目标：即从字符串提取一部分内容，则可以使用（）将想提取的子字符串括起来，调用group（）方法传入分组索引即可

import re

content = 'Hello 1234567 World_This is a Regex Demo'
result = re.match('^Hello\s(\d+)\sWorld',content)
print(result)
print(result.group())
#提取匹配的数字
print(result.group(1))

结果：
<_sre.SRE_Match object; span=(0, 19), match='Hello 1234567 World'>
Hello 1234567 World
1234567
(0, 19)

View Code

贪婪模式：.*尽可能多的匹配多的字符

import re

content = 'Hello 1234567 World_This is a Regex Demo'
result = re.match('^He.*(\d+).*Demo$',content)
print(result)
print(result.group(1))
结果：
<_sre.SRE_Match object; span=(0, 40), match='Hello 1234567 World_This is a Regex Demo'>
7

View Code

非贪婪模式：.*?尽可能匹配少的字符

import re

content = 'Hello 1234567 World_This is a Regex Demo'
result = re.match('^He.*?(\d+).*Demo$',content)
print(result)
print(result.group(1))

结果；
<_sre.SRE_Match object; span=(0, 40), match='Hello 1234567 World_This is a Regex Demo'>
1234567

View Code

修饰符 re.S: .*不能够匹配换行符，所以当遇到换行符时会导致匹配失败，而re.S就可以修正这个错误

content = '''Hello 1234567 World_This
is a Regex Demo
'''
result = re.match('^He.*?(\d+).*?Demo$',content,re.S)
print(result)
print(result.group(1))

结果：
<_sre.SRE_Match object; span=(0, 40), match='Hello 1234567 World_This\nis a Regex Demo'>
1234567

View Code

转义匹配：当遇到用于正则匹配模式的特殊字符时，则应该在其前面加\（反斜线）进行转义

import re

content = '(百度)www.baidu.com'
result = re.match('\(百度\)www\.baidu\.com',content)
print(result)
print(result.group())

结果：
<_sre.SRE_Match object; span=(0, 17), match='(百度)www.baidu.com'>
(百度)www.baidu.com

View Code

seasrch()方法：在匹配时会扫描整个字符串，返回第一个匹配成功的结果，即正则表达式可以是字符串的一部分，在进行匹配的过程中search()方法会一次扫描整个字符串，直至找到第一个符合规则的字符串然后返回匹配内容（第一个内容，以后不再进行匹配），若搜索整个字符串未找到则返回None.

import re

content = 'Extra stings Hello 1234567 World_This  ia a Regex Demo Extra stings'
result = re.search('Hello.*?(\d+).*?Demo',content)
print(result)

结果：
<_sre.SRE_Match object; span=(13, 54), match='Hello 1234567 World_This  ia a Regex Demo'>

View Code

Findall()方法：获取匹配正则表达式的所有内容，搜索整个字符串，放回匹配正则表达式的所有内容

import re

content = 'Extra stings Hello 1234567 World_This  ia 456789 Regex Demo Extra stings'
result = re.findall('.*?(\d+).*?',content)
print(result)
结果：
['1234567', '456789']

View Code

sub()方法：进行文本的修改，例如将一段文本中的数字全部去掉

import re

content = 'jfie4165efj5fkeo4fieo04fje9'
result = re.sub('\d+','',content)
print(result)

结果：
jfieefjfkeofieofje

View Code

Compile():这个方法可以将正则字符串编译成正则表达式对象，方便在后面的匹配中再次利用

import re

content = '2016-12-15 12:00'
pattern = re.compile('\d{2}:\d{2}')
result = re.sub(pattern,'',content)
print(result)

结果：
2016-12-15

View Code

posted @ 2018-12-24 19:32 Coolc 阅读(150) 评论(0) 收藏举报

刷新页面返回顶部

cook

python正则表达式-re

公告