正则表达式

正则表达式（regular expression）是一种工具，一种广泛用于匹配字符串的工具。它用一个“字符串”来描述一个特征，然后去验证另一个“字符串”是否符合这个特征。比如表达式“ab+”描述的特征是“一个'a'和任意个'b'”，那么'ab','abb','abbbbbbbbbb'都符合这个特征。

在正式学习正则之前，你要牢记下面几个事项：

1.正则表达式本质上是一门语言，它不从属与 Python！Python 只是将他人写好的正则引擎集成到了语言内部，大多数编程语言都是这么干的！

2.正则表达式诞生的时间很长，应用非常广泛，是业界公认的字符串匹配工具。虽然有不同版本的内部引擎，但基本通用，也就是说，你在 Python 内写的正则表达式，可以移植到 Linux 的 shell，Java 语言等任何支持正则的场景中去。

3.正则表达式默认从左往右匹配。

4.正则表达式默认是贪婪模式。

5.正则表达式默认在匹配到了内容后，则终止匹配，不继续匹配。

6.对同一个问题，编写的正则表达式不是唯一的

一、普通字符

字母、数字、汉字、下划线、以及没有特殊定义的符号，都是"普通字符"。正则表达式中的普通字符，在匹配的时候，只匹配与自身相同的一个字符。

例如：表达式 c，在匹配字符串 abcde 时，匹配结果是：成功；匹配到的内容是 c；匹配到的位置开始于 2，结束于 3。（注：下标从 0 开始还是从 1 开始，因当前编程语言的不同而可能不同）

二、元字符

正则表达式中使用了很多元字符，用来表示一些特殊的含义或功能。

表达式	匹配
.	小数点可以匹配除了换行符\n 以外的任意一个字符
\|	逻辑或操作符
[]	匹配字符集中的一个字符
[^]	对字符集求反，也就是上面的反操作。尖号必须在方括号里的最前面
-	定义[]里的一个字符区间，例如[a-z]
\	对紧跟其后的一个字符进行转义
()	对表达式进行分组，将圆括号内的内容当做一个整体，并获得匹配的值

例如：

a.c 匹配 abc

(a|b)c 匹配 ac 与 bc

[abc]1 匹配 a1 或者 b1 或者 c1

使用方括号[]包含一系列字符，能够匹配其中任意一个字符。用[^]包含一系列字符，则能够匹配其中字符之外的任意一个字符。

[ab5@]匹配 a 或 b 或 5 或@

[^abc]匹配 a,b,c 之外的任意一个字符

[f-k]匹配 f~k 之间的任意一个字母

[^A-F0-3]匹配 A~F 以及 0~3 之外的任意一个字符

三、转义字符

一些无法书写或者具有特殊功能的字符，采用在前面加斜杠"\"进行转义的方法。例如下表所示：

表达式	匹配
\r, \n	匹配回车和换行符
\t	匹配制表符
\\	匹配斜杠\
\^	匹配^符号
\$	匹配$符号
\.	匹配小数点.

尚未列出的还有问号？、星号*和括号等其他的符号。所有正则表达式中具有特殊含义的字符在匹配自身的时候，都要使用斜杠进行转义。这些转义字符的匹配方法与普通字符类似，也是匹配与之相同的一个字符。

例如表达式\$d，在匹配字符串"abc$de"时，匹配结果是：成功；匹配到的内容是$d；匹配到的位置开始于 3，结束于 5。

四、预定义匹配字符集

正则表达式中的一些表示方法，可以同时匹配某个预定义字符集中的任意一个字符。比如，表达式\d 可以匹配任意一个数字。虽然可以匹配其中任意字符，但是只能是一个，不是多个。如下表所示，注意大小写：

表达式	匹配
\d	任意一个数字，0~9 中的任意一个
\w	任意一个字母或数字或下划线，也就是 A~Z,a~z,0~9,_ 中的任意一个
\s	空格、制表符、换页符等空白字符的其中任意一个
\D	\d 的反集，也就是非数字的任意一个字符，等同于[^\d]
\W	\w 的反集，也就是[^\w]
\S	\s 的反集，也就是[^\s]

例如表达式\d\d，在匹配 abc123 时，匹配的结果是：成功；匹配到的内容是 12；匹配到的位置开始于 3，结束于 5。

五、重复匹配

前面的表达式，无论是只能匹配一种字符的表达式，还是可以匹配多种字符其中任意一个的表达式，都只能匹配一次。但是有时候我们需要对某个片段进行重复匹配，例如手机号码 13666666666，一般的新手可能会写成\d\d\d\d\d\d\d\d\d\d\d（注意，这不是一个恰当的表达式），不但写着费劲，看着也累，还不一定准确恰当。这种情况可以使用表达式再加上修饰匹配次数的特殊符号{}，不用重复书写表达式就可以重复匹配。比如[abcd][abcd]可以写成[abcd]{2}。

表达式	匹配
{n}	表达式重复 n 次，比如\d{2}相当于\d\d,a{3}相当于 aaa
{m,n}	表达式至少重复 m 次，最多重复 n 次。比如 ab{1,3}可以匹配 ab 或 abb 或abbb
{m,}	表达式至少重复 m 次，比如\w\d{2,}可以匹配 a12,_1111,M123 等等
?	匹配表达式 0 次或者 1 次，相当于{0,1}，比如 a[cd]?可以匹配 a,ac,ad
+	表达式至少出现 1 次，相当于{1,}，比如 a+b 可以匹配 ab,aab,aaab 等等
*	表达式出现 0 次到任意次，相当于{0,}，比如\^*b 可以匹配 b,^^^b 等等

其中有些例子一定要注意！比如 ab{1,3}中重复的是 b 而不是 ab，(ab){1,3}这样重复的才是 ab。表达式\^*b 中重复的是\^而不是^，要从左往右读正则表达式，转义符号有更高的优先级，需要和后面的字符整体认读。表达式\d+\.?\d*在匹配 It costs $12.5 时，匹配的结果是：成功；匹配到的内容是12.5；匹配到的位置开始于 10，结束于 14。表达式 go{2,8}gle 在匹配 Ads by goooooogle 时，匹配的结果是：成功；匹配到的内容是 goooooogle；匹配到的位置开始于 7，结束于 17。

六、位置匹配

有时候，我们对匹配出现的位置有要求，比如开头、结尾、单词之间等等。

表达式	匹配
^	在字符串开始的地方匹配，符号本身不匹配任何字符
$	在字符串结束的地方匹配，符号本身不匹配任何字符
\b	匹配一个单词边界，也就是单词和空格之间的位置，符号本身不匹配任何字符
\B	匹配非单词边界，即左右两边都是\w 范围或者左右两边都不是\w 范围时的字符缝隙

例如表达式^aaa 在匹配 xxx aaa xxx 时，匹配结果是：失败。因为^要求在字符串开始的地方匹配。

表达式 aaa$在匹配 xxx aaa xxx 时，匹配结果是：失败。因为$要求在字符串结束的地方匹配。

表达式.\b.在匹配@@@abc 时，匹配结果是：成功；匹配到的内容是@a；匹配到的位置开始于 2，结束于 4。

表达式\bend\b 在匹配 weekend,endfor,end 时，匹配结果是：成功；匹配到的内容是end；匹配到的位置开始于 15，结束于 18。

七、常用正则表达式

下面是网络上收集的一些常用正则表达式，请参考使用。 PS:各位在复制粘贴的时候务必要小心前后多余的空格！

校验数字的相关表达式：

功能	表达式
数字	^[0-9]*$
n 位的数字	^\d{n}$
至少 n 位的数字	^\d{n,}$
m-n 位的数字	^\d{m,n}$
零和非零开头的数字	^(0\|[1-9][0-9]*)$
非零开头的最多带两位小数的数字	^([1-9][0-9]*)+(.[0-9]{1,2})?$
带 1-2 位小数的正数或负数	^(\-)?\d+(\.\d{1,2})?$
正数、负数、和小数	^(\-\|\+)?\d+(\.\d+)?$
有两位小数的正实数	^[0-9]+(.[0-9]{2})?$
有 1~3 位小数的正实数	^[0-9]+(.[0-9]{1,3})?$
非零的正整数	^[1-9]\d*$
非零的负整数	^-[1-9]\d*$
非负整数	^\d+$
非正整数	^-[1-9]\d*\|0$
非负浮点数	^\d+(\.\d+)?$
非正浮点数	^((-\d+(\.\d+)?)\|(0+(\.0+)?))$
正浮点数	^[1-9]\d\.\d\|0\.\d[1-9]\d$
负浮点数	^-([1-9]\d\.\d\|0\.\d[1-9]\d)$
浮点数	^(-?\d+)(\.\d+)?$

校验字符的相关表达式：

功能	表达式
汉字	^[\u4e00-\u9fa5]{0,}$
英文和数字	^[A-Za-z0-9]+$
长度为 3-20 的所有字符	^.{3,20}$
由 26 个英文字母组成的字符串	^[A-Za-z]+$
由 26 个大写英文字母组成的字符串	^[A-Z]+$
由 26 个小写英文字母组成的字符串	^[a-z]+$
由数字和 26 个英文字母组成的字符串	^[A-Za-z0-9]+$
由数字、26 个英文字母或者下划线组成的字符串	^\w+$
中文、英文、数字包括下划线	^[\u4E00-\u9FA5A-Za-z0-9_]+$
中文、英文、数字但不包括下划线等符号	^[\u4E00-\u9FA5A-Za-z0-9]+$
可以输入含有^%&’,;=?$\”等字符	[^%&’,;=?$\x22]+
禁止输入含有~的字符	[^~\x22]+

特殊场景的表达式:

功能	表达式
Email 地址	^\w+([-+.]\w+)@\w+([-.]\w+)\.\w+([-.]\w+)*$
域名	[a-zA-Z0-9][-a-zA-Z0-9]{0,62}(/.[a-zA-Z0-9][-a-zA-Z0-9]{0,62})+/.?
InternetUR	[a-zA-z]+://[^\s]* 或 ^http://([\w-]+\.)+[\w-]+(/[\w-./?%&=]*)?$
手机号码	^(13[0-9]\|14[5\|7]\|15[0\|1\|2\|3\|5\|6\|7\|8\|9]\|18[0\|1\|2\|3\|5\|6\|7\|8\|9])\d{8}$
国内电话号码	\d{3}-\d{8}\|\d{4}-\d{7}(0511-4405222、021-87888822)
身份证号	^\d{15}\|\d{18}$(15 位、18 位数字)
短身份证号码	^([0-9]){7,18}(x\|X)?$ 或 ^\d{8,18}\|[0-9x]{8,18}\|[0-9X]{8,18}?$(数字、字母 x 结尾)
帐号是否合法	^[a-zA-Z][a-zA-Z0-9_]{4,15}$(字母开头，允许 5-16 字节，允许字母数字下划线)
密码	^[a-zA-Z]\w{5,17}$(以字母开头，长度在 6~18 之间，只能包含字母、数字和下划线)
强密码	^(?=.\d)(?=.[a-z])(?=.*[A-Z]).{8,10}$(必须包含大小写字母和数字的组合，不能使用特殊字符，长度在 8-10 之间)
日期格式	^\d{4}-\d{1,2}-\d{1,2}
一年的 12 个月(01～09和 1～12	^(0?[1-9]\|1[0-2])$
一个月的 31 天(01～09和 1～31)	^((0?[1-9])\|((1\|2)[0-9])\|30\|31)$
xml 文件	^([a-zA-Z]+-?)+[a-zA-Z0-9]+\\.[x\|X][m\|M][l\|L]$
双字节字符	[^\x00-\xff](包括汉字在内，可以用来计算字符串的长度(一个双字节字符长度计 2，ASCII 字符计 1))
空白行的正则表达式	\n\s*\r (可以用来删除空白行)
HTML 标记的正则表达式	<(\S?)[^>]>.?</\1>\|<.? />(对于复杂的嵌套标记依旧无能为力)
首尾空白字符的正则表达式	^\s\|\s$或(^\s)\|(\s$)(可以用来删除行首行尾的空白字符(包括空格、制表符、换页符等等))
腾讯 QQ 号	[1-9][0-9]{4,} (腾讯 QQ 号从 10000 开始)
中国邮政编码	[1-9]\d{5}(?!\d) (中国邮政编码为 6 位数字)
IP 地址提取	\d+\.\d+\.\d+\.\d+ (提取 IP 地址时有用)
IP 地址合法性判断	((?:(?:25[0-5]\|2[0-4]\\d\|[01]?\\d?\\d)\\.){3}(?:25[0-5]\|2[0-4]\\d\|[01]?\\d?\\d))

posted @ 2019-02-23 21:32 ^sun^ 阅读(1255) 评论(0) 收藏举报

刷新页面返回顶部

^sun^