Python学习之正则表达式

　import re

　　1、贪心匹配与非贪心匹配：<.*>和<.*?>　　（加一个问号？即为非贪心匹配）

　　2、原生字符串（r）：

　　　　与大多数编程语言相同，正则表达式里使用"\"作为转义字符，这就可能造成反斜杠困扰。假如你需要匹配文本中的字符"\"，那么使用编程语言表示的正则表达式里将需要4个反斜杠"\\\\"：前两个和后两个分别用于在编程语言里转义成反斜杠，转换成两个反斜杠后再在正则表达式里转义成一个反斜杠。

　　　　Python里的原生字符串很好地解决了这个问题，这个例子中的正则表达式可以使用r"\\"表示。同样，匹配一个数字的"\\d"可以写成r"\d"。

　　3、re.S　　￥原文出处，感谢“青南的小世界”￥

　　　　正则表达式中，“.”的作用是匹配除“\n”以外的任何字符，也就是说，它是在一行中进行匹配。这里的“行”是以“\n”进行区分的。a字符串有每行的末尾有一个“\n”，不过它不可见。

　　　　如果不使用re.S参数，则只在每一行内进行匹配，如果一行没有，就换下一行重新开始，不会跨行。而使用re.S参数以后，正则表达式会将这个字符串作为一个整体，将“\n”当做一个普通的字符加入到这个字符串中，在整体中进行匹配。

　　4、re.match(pattern, string[, flags])函数

　　作用：match() 函数只在字符串的开始位置尝试匹配正则表达式，也就是只报告从位置 0 开始的匹配情况，而 search() 函数是扫描整个字符串来查找匹配。如果想要搜索整个字符串来寻找匹配，应当用 search()。

　　5、re.search(pattern, string[, flags])函数

　　作用：在字符串中查找匹配正则表达式模式的位置，返回 MatchObject 的实例，如果没有找到匹配的位置，则返回 None。

　　6、re.match与re.search的区别：

　　re.match只匹配字符串的开始，如果字符串开始不符合正则表达式，则匹配失败，函数返回None；而re.search匹配整个字符串，直到找到一个匹配。

　　7、re.complie(pattern[, flags])函数　　￥感谢王振璇￥

　　作用：把正则表达式语法转化成正则表达式对象

　　flags定义包括：

　　　re.I：忽略大小写
　　　re.L：表示特殊字符集 \w, \W, \b, \B, \s, \S 依赖于当前环境
　　　re.M：多行模式
　　　re.S：' . '并且包括换行符在内的任意字符（注意：' . '不包括换行符）
　　　re.U：表示特殊字符集 \w, \W, \b, \B, \d, \D, \s, \S 依赖于 Unicode 字符属性数据库

　　8、re.findall（attern, string[, flags]）函数

　　作用：在字符串中找到正则表达式所匹配的所有子串，并组成一个列表返回

　　re.finditer(pattern, string[, flags])

　　作用：和 findall 类似，在字符串中找到正则表达式所匹配的所有子串，并组成一个迭代器返回。

　　9、re.sub（pattern, repl, string[, count, flags]）函数

　　作用：在字符串 string 中找到匹配正则表达式 pattern 的所有子串，用另一个字符串 repl 进行替换。如果没有找到匹配 pattern 的串，则返回未被修改的 string。Repl 既可以是字符串也可以是一个函数。

　　re.subn(pattern, repl, string[, count, flags])

　　作用：该函数的功能和 sub() 相同，但它还返回新的字符串以及替换的次数。

　　10、re.split（pattern, string[, maxsplit=0, flags=0]）函数

　　作用：可以将字符串匹配正则表达式的部分割开并返回一个列表

正则表达式语法表如下：

语法	意义	说明
"."	任意字符
"^"	字符串开始	'^hello'匹配'helloworld'而不匹配'aaaahellobbb'
"$"	字符串结尾	与上同理
"*"	0 个或多个字符（贪婪匹配）	<*>匹配<title>chinaunix</title>
"+"	1 个或多个字符（贪婪匹配）	与上同理
"?"	0 个或多个字符（贪婪匹配）	与上同理
*?,+?,??	以上三个取第一个匹配结果（非贪婪匹配）	<*>匹配<title>
{m,n}	对于前一个字符重复m到n次，{m}亦可	a{6}匹配6个a、a{2,4}匹配2到4个a
{m,n}?	对于前一个字符重复m到n次，并取尽可能少	‘aaaaaa'中a{2,4}只会匹配2个
"\\"	特殊字符转义或者特殊序列
[]	表示一个字符集	[0-9]、[a-z]、[A-Z]、[^0]
"\|"	或	A\|B,或运算
(...)	匹配括号中任意表达式
(?#...)	注释，可忽略
(?=...)	Matches if ... matches next, but doesn't consume the string.	'(?=test)' 在hellotest中匹配hello
(?!...)	Matches if ... doesn't match next.	'(?!=test)' 若hello后面不为test，匹配hello
(?<=...)	Matches if preceded by ... (must be fixed length).	'(?<=hello)test' 在hellotest中匹配test
(?<!...)	Matches if not preceded by ... (must be fixed length).	'(?<!hello)test' 在hellotest中不匹配test

正则表达式特殊序列表如下：

特殊序列符号	意义
\A	只在字符串开始进行匹配
\Z	只在字符串结尾进行匹配
\b	匹配位于开始或结尾的空字符串
\B	匹配不位于开始或结尾的空字符串
\d	相当于[0-9]
\D	相当于[^0-9]
\s	匹配任意空白字符:[\t\n\r\r\v]
\S	匹配任意非空白字符:[^\t\n\r\r\v]
\w	匹配任意数字和字母:[a-zA-Z0-9]
\W	匹配任意非数字和字母:[^a-zA-Z0-9]

重复：

紧跟在单个字符之后，表示多个这样类似的字符

* 重复 >=0 次

+ 重复 >=1 次

? 重复 0或者1 次

{m} 重复m次。比如说 a{4}相当于aaaa，再比如说[1-3]{2}相当于[1-3][1-3]

{m, n} 重复m到n次。比如说a{2, 5}表示a重复2到5次。小于m次的重复，或者大于n次的重复都不符合条件

eg：

正则表达相符的字符串举例

[0-9]{3,5} 9678

a?b b

a+b aaaaab

位置

^ 字符串的起始位置

$ 字符串的结尾位置

优秀文章

posted @ 2017-11-09 11:27 RescueWang 阅读(176) 评论(0) 收藏举报

刷新页面返回顶部

RescueWang

Python学习之正则表达式

公告