正则表达式——字符类、分支条件、分组
思路来源:http://deerchao.net/tutorials/regex/regex.htm#alternative
感谢deerchao,写的比菜鸟教程好太多了。现在感觉菜鸟教程可能就是翻译了一些doc,而且是思路结构不太清晰的doc……
进入正题,主要还是看了教程后自己的理解。
字符类
字符类,即为如 [aeiou]、[1-9]、[19]、[.?!] 等用英文中括号括起字符的字符集合。
解释与辨析:
[aeiou]:匹配a 或 e 或 i 或 o 或 u 。
[0-9]:匹配 0 或 1 或 2 或 3……0-9 中的一个数字。(含义与 \d 完全一致:一位数字)
[09]:匹配 0 或者是 9 。
[.?!]:匹配 . 或 ?或是 !
同理[a-z0-9A-Z_]也基本等同于 \w(匹配非特殊字符,即a-z、A-Z、0-9、下划线、汉字)。
#补充 \W 的意思:匹配特殊字符,即非字母、非数字、非下划线、非汉字。
所以中括号[]就像是划定了一个字符范围一样。接下来是一个复杂的表达式: \(?0\d{2}[) -]?\d{8}。
这个表达式可以匹配几种格式的电话号码,像(010)88886666,或022-22334455,或是02912345678等等。
对它进行分析:首先是\(对左括号的转义,同时加?代表可1可无;然后是一个数字0和\d{2},代表0和两个数字;往后就是一个字符类范围[) -]?,左括号、空格、hyphen三选一可1可无;最后是\d{8}八个数字。
不幸的是这样的表达式也会匹配到一些错误的电话号码格式,如010)12345678、(022-87654321。
所以引入下一个知识点:分支条件。
分支条件
正则表达式中的分支条件指:我现在有这几种匹配规则,如果对象满足其中任意一种匹配规则就成功。具体方法是用 | 把不同的匹配规则分开。
0\d{2}-\d{8}|0\d{3}-\d{7}这个表达式能匹配两种带有hyphen连接的匹配规则:一种是三位区号,8位本地号(如010-12345678);一种是4位区号,7位本地号(0376-2233445)。
\(0\d{2}\)[- ]?\d{8}|0\d{2}[- ]?\d{8}这个表达式匹配3位区号的电话号码,其中区号可以用小括号括起来,也可以不用(两种匹配规则),区号与本地号间可以用hyphen或空格间隔,也可以都不用,但不能都用。我觉得[ -]?可以这样理解:先[ -]二选一,再?对二选一出来的东西其判断0或1。
\d{5}-\d{4}|\d{5}这个表达式用于匹配美国的邮政编码。美国邮编的规则是5位数字,或是用hyphen间隔的9位数字。这个例子能说明一个注意点:使用分支条件时,要注意不同条件之间的顺序。
如果你把上面的表达式改成\d{5}|\d{5}-\d{4}(两规则前后调换)的话,那就只会匹配5位的邮编(以及9位邮编的前5位)。原因是当系统在匹配分支条件中的不同规则时,将会从左到右地测试每个规则。当满足了第一个分支规则的话,就不会再去测试第二个分支规则了。如下图↓所诠释的:
分组
我们已经知道如何重复单个字符(在字符后添加限定符+*?即可)。但如果我们需要重复多个字符该怎么办?故引入概念:分组。
分组就是在多个字符(子表达式)的左右添加小括号,然后加{n}。就指定了这个子表达式的重复次数n了。
(\d{1,3}\.){3}\d{1,3} 是一个简单的IP地址匹配表达式。
分析这个表达式:(){3}代表它是一个重复三次的分组,括号内\d{1,3}\.指一到三位数字加一个point点,合在一起 (\d{1,3}\.){3} 就是匹配三位数字加上一个point点(这个分组)重复3次,最后再加上一个一到三位的数字(\d{1,3})。
- 如果不在point点前放置转义符号,原point点指 匹配除了换行符(\n)之外的任意一个字符。
- {m,n}指表达式至少重复m次,最多重复n次,比如:"ba{1,3}"可以匹配"ba"或"baa"或"baaa"。
不幸的是,它也将匹配256.300.888.999这种不可能存在的IP地址。如果能使用算术比较的话,或许能简单地解决这个问题,但是正则表达式中并不提供关于数学的任何功能,所以只能使用冗长的分组选择。
- IP地址中每个数字都不能大于255。同时, 01.02.03.04 这种数字前面带有0的地址,也是正确的IP地址。IP 地址里的数字可以包含“前导 0 (leading zeroes)“。
这个表达式描述了一个正确的IP地址:((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)。
理解这个表达式的关键是理解2[0-4]\d|25[0-5]|[01]?\d\d?。分析它!
整体结构为带有两个 | 的三分组结构。
首先是 2[0-4]\d:数字2 + 0-4中的一个数字 + 0-9中的一个数字; 200-249
中间是 25[0-5]:数字2 + 数字5 + 0-5中的一个数字; 250-255
最后是[01]?\d\d?:0或1(可1可无) + 一个数字 + 一个数字(可1可无) 0-199