正则表达式入门学习

写在最前面

前两天我从CodeProject上翻译了一篇关于Javascript的文章《Javascript中的陷阱大集合》，初次翻译技术文章，可能有很多地方需要改进，我个人觉得最好的改进办法就是继续去翻译其他文章，取长补短，积极思考，呵呵。

今天翻译的这篇文章是关于正则表达式的，英文原文为Learn Regular Expressions (RegEx) with Ease。让我们来轻松学习这令人蛋疼无比的正则表达式吧。译文允许转载，转载请在页面明显处注明以下信息：

英文原文：Learn Regular Expressions (RegEx) with Ease
译文作者：王国峰
译文标题：轻松学习正则表达式【译】
译文链接：http://www.itivy.com/ivy/archive/2011/11/16/learn-regular-expressions-with-ease.html

谢谢合作！

译文如下：

点击下面的图片可以把你带进正则表达式的学习视频教程（译者云：国内youtube不太好上，所以还是老老实实跟着我的译文学习吧，哈哈）

开篇，谈谈本文的主要内容

编写验证规则最流行和最简单的方法就是正则表达式了，但唯一的一个问题是正则表达式的语法太隐晦了，让人蛋疼无比。很多开发者为了在项目中应用复杂的验证，经常要使用一些小抄来记住正则式的复杂语法和各种常用命令。

在这篇文章中，我将试图让大家明白什么是正则表达式，以及如何更轻松地学习正则表达式。

也许你是初学者，那以防万一，我先来讲讲什么是正则表达式吧：

正则表达式可以帮助我们更好的描述复杂的文本格式。一旦你描述清楚了这些格式，那你就可以利用它们对文本数据进行检索、替换、提取和修改操作。

下面有一个正则表达式的简单例子。第一步先要引入有关正则式的命名空间：

using System.Text.RegularExpressions;

第二步就是用指定的正则式构建一个正则表达式对象,下面的正则式是用来搜索长度为10的a-z的英文字母:

Regex obj = new Regex(“[a-z]{10}”);

最后,根据正则式在指定数据中检索匹配项,如果匹配IsMatch方法就会返回true。

MessageBox.Show(obj.IsMatch(“shivkoirala”).ToString());

3个重要的正则式命令

记住正则语法最好的办法就是记住这三样东西：Bracket（括号）, caret（插入符号）和Dollars（美元符号）。

在正则表达式中有3种类型的括号

方括号 “[“和花括号“{“ 。

方括号"["内是需要匹配的字符，花括号"{"内是指定匹配字符的数量。

圆括号“(“ 则是用来分组的。

插入符号 “^” 表示正则式的开始。

美元符号“$” 表示正则式的结束。

现在你知道上面的3个语法后，你就可以写世界上任何一条验证规则了。比如下面的例子就很好的说明了上面3条是如何协调运作的。

（译者注：上图有个错误，"()"应为"{}"）

上面的这条正则式只能匹配a-z的英文字母，同样是在中括号中标明匹配范围。
花括号中则是标明匹配字符串的最小长度和最大长度。
最后为了让表达式更规则，分别在开头和结尾加上了插入符号"^"和美元符号"$"。

好了，现在我们就用上面的3条语法来实现一些正则表达式的验证规则吧。

检查用户是否输入了shivkoirala？

让我们开始第一个验证，输入的字符在a-g之间？

[a-g]

输入的字符在a-g之间并且长度为3？

[a-g]{3}

输入的字符在a-g之间并且最大长度为3最小长度为1？

[a-g]{1,3}

如何在匹配像91230456, 01237648那样的固定8位数？

^[0-9]{8}$

如何验证最小长度为3最大长度为7的数字，如：123, 1274667, 87654？

^[0-9]{3,7}$

如何验证像LJI10201020那样的发票编号，前3个是字母剩余为8位长度的数字？

前三个是字母：

^[a-z]{3}

后面是8位长度的数字：

[0-9]{8}

所以整个表达式为：

^[a-z]{3}[0-9]{8}$

验证像INV19020303 或 inv82083003那样的前3位是不区分大小写的英文字母，剩余8位是数字

在前面的表达式中只能匹配前3个是小写英文字母的发票编号，如果我们输入大写字母那就不能匹配了。所以为了确保前3个字母是不区分大小写的，我们就要用表达式^[a-zA-Z]{3}。

完整的正则式如下：

^[a-zA-Z]{3}[0-9]{8}$

我们可以验证简单的网址URL格式吗？

第一步：检查是否存在www：

^www.

第二步：域名必须是长度在1-15的英文字母：

 [a-z]{1,15}

第三部：以.com或者.org结束：

(com|org)$

完整的表达式如下：

^www[.][a-z]{1,15}[.](com|org)$

让我们在来看看BCD（其实也就是上面说的3条基本语法）如何验证email格式

第一步：email开始是长度在1-10的英文字母，最后跟一个"@"：

^[a-zA-Z0-9]{1,10}@

第二步：@后面是长度在1-10的英文字母，后面跟一个"."：

[a-zA-Z]{1,10}.

第三步：最后以.com或.org结束：

.(com|org)$

最后完整的表达式如下：

^[a-zA-Z0-9]{1,10}@[a-zA-Z]{1,10}.(com|org)$

验证值在0-25的数字：

^(([0-9])|([0-1][0-9])|([0-2][0-5]))$

验证格式为MM/DD/YYYY, YYYY/MM/DD and DD/MM/YYYY的日期：

步骤	正则式	描述说明
先来检查 DD. 首先DD的长度为1-29 ( 2月份) , 1-30 (月小) , 1-31 (月大) . 所以 DD 就是 1-9 或 01-09	[1-9]\|0[1-9]	允许用户输入1-9或者01-09.
再为DD添加匹配10-19	[1-9]\|1[0-9]	允许用户输入01-19.
再为DD添加匹配20-29	[1-9]\|1[0-9]\|2[0-9]	允许用户输入01-29.
i再为DD添加匹配30-31	[1-9]\|1[0-9]\|2[0-9]\|3[0-1]	最后用户可以输入01-31.
再来匹配日期间的分隔符"/"，"-"	[/ . -]	允许用户输入日期分隔符.
MM也是类似的操作	[1-9]\|0[1-9]\|1[0-2]	让用户输入月份值01-12.
最后就是YY的操作	1[9][0-9][0-9]\|2[0][0-9][0-9]	允许用户输入年份1900-2099.

最后DD/MM/YYYY格式的日期的正则表达式为：

^([1-9]|0[1-9]|1[0-9]|2[0-9]|3[0-1])[- / .]([1-9]|0[1-9]|1[0-2])[- / .](1[9][0-9][0-9]|2[0][0-9][0-9])$

MM/DD/YYYY格式的日期：

^([1-9]|0[1-9]|1[0-2])[- / .]([1-9]|0[1-9]|1[0-9]|2[0-9]|3[0-1])[- / .](1[9][0-9][0-9]|2[0][0-9][0-9])$

YYYY/MM/DD格式的日期：

^(1[9][0-9][0-9]|2[0][0-9][0-9])[- / .]([1-9]|0[1-9]|1[0-2])[- / .]([1-9]|0[1-9]|1[0-9]|2[0-9]|3[0-1])$

快捷命令

你也可以用以下的快捷命令来简化你的正则表达式

实际命令	快捷命令
[0-9]	\d
[a-z][0-9][_]	\w
0次或多次发生	*
至少一次发生	+
0次或1次发生	?

（译文完）

转载请注明英文原文链接和译文链接，谢谢合作。

最后说下快速测试的方法：使用谷歌浏览器如图:

例子(群里一个朋友问的问题我正好借这个机会学习下)：

需求：

<option value="http://www.tongren.gov.cn/files/60gq/html/trdt/"><a href='http://www.tongren.gov.cn/files/60gq/html/trdt/' target='_blank'>铜仁人民广播电台</a> </option>

把所有option里面的a标签去掉保留里面的文字变成

<option value="http://www.tongren.gov.cn/files/60gq/html/trdt/">铜仁人民广播电台</option>

首先分析把这个问题拆分(学习oracle sql的时候讲师提供的思路) 我们学习不是为了答案而是学习解决问题的思路和方法这里我也分享下说的不对的也请朋友指教

这个html有5个部分：

1：<option value="http://www.tongren.gov.cn/files/60gq/html/trdt/">
2：<a href=' http://www.tongren.gov.cn/files/60gq/html/trdt/' target='_blank'>
3：铜仁人民广播电台
4：</a>
5：</option>

也许你想到我们一次来匹配他们没错思路就是这样。

1：<option[^>]*> 当时我就在想花括号里面为什么是^>呢？我直接[\x]x代表是任意的除了换行特殊的那些字符如果这样就错了不加^>那就匹配到最后一个位置去了明白了吗？

如图：

2：?:<a[^>]*> ?:非捕获组我们先不去理解他是不是和上面的一样<a[^>]*>

3：[^<]* 注意这一次为什么又是^<呢？因为我们前面匹配了1 和2 答案说的很勉强啊！注意看html位置是不是在>的后面呢？仔细想想原来真的是这样!

4：到这里就和上面的一样了原理?:<\/a> \是转义字符就是告诉编译器 \我后面的这个/不是正则里面的字符啊！

5：(.*<\/option>) 这个为什么要加.*呢我也问了下朋友他说</a>和</option>之间可能有空格我试试了也对原来里面的注意的问题还真的很多！

合起来就是 var sp=/(<option[^>]*>)(?:<a[^>]*>)([^<]*)(?:<\/a>)(.*<\/option>)/

测试的结果：

注意：[xx]就是匹配的内容加^就是false的意思不包括xx ?：是非捕获组 .是任意的字符除了换行的 $1 $2 $3 这个看起来很奇怪啊我看书也没看明白最后才知道这个是占位符(联想c#) 感觉来了没！

哎现在需求又来了这这里就一个s 图里的var s=xxx 我要匹配的是整个页面的啊程序员!! 改吧学习的过程就是不断解决问题

最后结果如下：

var r = /(<option[^>]*>)(?:<a[^>]*>)([^<]*)(?:<\/a>)([^<]*<\/option>)/g;
console.log(s.replace(r, function(str, a, b, c) {
return a + b + c;
}))

其中abc就是我们前面的那5个没有加?:的明白了吧？

测试：

最后提一个问题？

正则在全角半角问题吧的情况下失效(就是能打中文的情况下怎么解决呢？)我无解朋友你能告诉我吗？我网上也没查到

posted @ 2012-08-22 14:08 s_p 阅读(318) 评论(0) 编辑收藏举报

刷新页面返回顶部

你听的到

正则表达式入门学习

公告