正则表达式

注意：经过多方整理，已经很详细！！！！

在计算机科学中，是指一个用来描述或者匹配一系列符合某个句法规则的字符串的单个字符串。在很多文本编辑器或其他工具里，正则表达式通常被用来检索和/或替换那些符合某个模式的文本内容。许多程序设计语言都支持利用正则表达式进行字符串操作。例如，在Perl中就内建了一个功能强大的正则表达式引擎。正则表达式这个概念最初是由Unix中的工具软件（例如sed和grep）普及开的。正则表达式通常缩写成“regex”，单数有regexp、regex，复数有regexps、regexes、regexen。

历史和起源

正则表达式的“鼻祖”或许可一直追溯到科学家对人类神经系统工作原理的早期研究。美国新泽西州的Warren McCulloch和出生在美国底特律的Walter Pitts这两位神经生理方面的科学家，研究出了一种用数学方式来描述神经网络的新方法，他们创新地将神经系统中的神经元描述成了小而简单的自动控制元，从而作出了一项伟大的工作革新。

在1956 年,出生在被马克·吐温（Mark Twain）称为“美国最美丽的城市之一的”哈特福德市的一位名叫Stephen Kleene的数学科学家，他在Warren McCulloch和Walter Pitts早期工作的基础之上，发表了一篇题目是《神经网事件的表示法》的论文，利用称之为正则集合的数学符号来描述此模型，引入了正则表达式的概念。正则表达式被作为用来描述其称之为“正则集的代数”的一种表达式，因而采用了“正则表达式”这个术语。之后一段时间，人们发现可以将这一工作成果应用于其他方面。Ken Thompson就把这一成果应用于计算搜索算法的一些早期研究，Ken Thompson是 Unix的主要发明人，也就是大名鼎鼎的Unix之父。Unix之父将此符号系统引入编辑器QED，然后是Unix上的编辑器ed，并最终引入grep。Jeffrey Friedl 在其著作“Mastering Regular Expressions (2nd edition)”中对此作了进一步阐述讲解，如果你希望更多了解正则表达式理论和历史，推荐你看看这本书。

自此以后，正则表达式被广泛地应用到各种UNIX或类似于UNIX的工具中，如大家熟知的Perl。Perl的正则表达式源自于Henry Spencer编写的regex，之后已演化成了pcre（Perl兼容正则表达式Perl Compatible Regular Expressions），pcre是一个由Philip Hazel开发的、为很多现代工具所使用的库。正则表达式的第一个实用应用程序即为Unix中的 qed 编辑器。然后，正则表达式在各种计算机语言或各种应用领域得到了广大的应用和发展，演变成为目前计算机技术森林中的一只形神美丽且声音动听的百灵鸟。

以上是关于正则表达式的起源和发展的历史描述，到目前正则表达式在基于文本的编辑器和搜索工具中依然占据这一个非常重要的地位。

在最近的六十年中，正则表达式逐渐从模糊而深奥的数学概念，发展成为在计算机各类工具和软件包应用中的主要功能。不仅仅众多UNIX工具支持正则表达式，近二十年来，在WINDOW的阵营下，正则表达式的思想和应用在大部分 Windows 开发者工具包中得到支持和嵌入应用！从正则式在Microsoft Visual Basic 6 或 Microsoft VBScript到.NET Framework中的探索和发展，WINDOWS系列产品对正则表达式的支持发展到无与伦比的高度，目前几乎所有 Microsoft 开发者和所有.NET语言都可以使用正则表达式。如果你是一位接触计算机语言的工作者，那么你会在主流操作系统（*nix[Linux, Unix等]、Windws、HP、BeOS等）、目前主流的开发语言（PHP、C#、Java、C++、VB、Javascript、Ruby以及python等）、数以亿万计的各种应用软件中，都可以看到正则表达式优美的舞姿。

概念

正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。给定一个正则表达式和另一个字符串，我们可以达到如下的目的：1. 给定的字符串是否符合正则表达式的过滤逻辑（称作“匹配”）；2. 可以通过正则表达式，从字符串中获取我们想要的特定部分。

正则表达式的特点是：1. 灵活性、逻辑性和功能性非常的强；2. 可以迅速地用极简单的方式达到字符串的复杂控制。3. 对于刚接触的人来说，比较晦涩难懂。由于正则表达式主要应用对象是文本，因此它在各种文本编辑器场合都有应用，小到著名编辑器EditPlus，大到Microsoft Word、Visual Studio等大型编辑器，都可以使用正则表达式来处理文本内容。

表达式符号--功能对照表

正则表达式由一些普通字符和一些元字符（metacharacters）组成。普通字符包括大小写的字母和数字，而元字符则具有特殊的含义，我们下面会给予解释。在最简单的情况下，一个正则表达式看上去就是一个普通的查找串。例如，正则表达式"testing"中没有包含任何元字符，它可以匹配"testing"和"123testing"等字符串，但是不能匹配"Testing"。要想真正的用好正则表达式，正确的理解元字符是最重要的事情。下表列出了所有的元字符和对它们的一个简短的描述。

元字符	描述
\	将下一个字符标记为一个特殊字符、或一个原义字符、或一个向后引用、或一个八进制转义符。例如，“\n”匹配字符“n”。“\n”匹配一个换行符。序列“\\”匹配“\”而“\(”则匹配“(”。
^	匹配输入字符串的开始位置。如果设置了RegExp对象的Multiline属性，^也匹配“\n”或“\r”之后的位置。
$	匹配输入字符串的结束位置。如果设置了RegExp对象的Multiline属性，$也匹配“\n”或“\r”之前的位置。
*	匹配前面的子表达式零次或多次。例如，zo能匹配“z”以及“zoo”。等价于{0,}。
+	匹配前面的子表达式一次或多次。例如，“zo+”能匹配“zo”以及“zoo”，但不能匹配“z”。+等价于{1,}。
?	匹配前面的子表达式零次或一次。例如，“do(es)?”可以匹配“does”或“does”中的“do”。?等价于{0,1}。
{n}	n是一个非负整数。匹配确定的n次。例如，“o{2}”不能匹配“Bob”中的“o”，但是能匹配“food”中的两个o。
{n,}	n是一个非负整数。至少匹配n次。例如，“o{2,}”不能匹配“Bob”中的“o”，但能匹配“foooood”中的所有o。“o{1,}”等价于“o+”。“o{0,}”则等价于“o*”。
{n,m}	m和n均为非负整数，其中n<=m。最少匹配n次且最多匹配m次。例如，“o{1,3}”将匹配“fooooood”中的前三个o。“o{0,1}”等价于“o?”。请注意在逗号和两个数之间不能有空格。
?	当该字符紧跟在任何一个其他限制符（*,+,?，{n}，{n,}，{n,m}）后面时，匹配模式是非贪婪的。非贪婪模式尽可能少的匹配所搜索的字符串，而默认的贪婪模式则尽可能多的匹配所搜索的字符串。例如，对于字符串“oooo”，“o+?”将匹配单个“o”，而“o+”将匹配所有“o”。
.	匹配除“\n”之外的任何单个字符。要匹配包括“\n”在内的任何字符，请使用像“(.\|\n)”的模式。
(pattern)	匹配pattern并获取这一匹配。所获取的匹配可以从产生的Matches集合得到，在VBScript中使用SubMatches集合，在JScript中则使用$0…$9属性。要匹配圆括号字符，请使用“$”或“$”。
(?:pattern)	匹配pattern但不获取匹配结果，也就是说这是一个非获取匹配，不进行存储供以后使用。这在使用或字符“(\|)”来组合一个模式的各个部分是很有用。例如“industr(?:y\|ies)”就是一个比“industry\|industries”更简略的表达式。
(?=pattern)	正向肯定预查，在任何匹配pattern的字符串开始处匹配查找字符串。这是一个非获取匹配，也就是说，该匹配不需要获取供以后使用。例如，“Windows(?=95\|98\|NT\|2000)”能匹配“Windows2000”中的“Windows”，但不能匹配“Windows3.1”中的“Windows”。预查不消耗字符，也就是说，在一个匹配发生后，在最后一次匹配之后立即开始下一次匹配的搜索，而不是从包含预查的字符之后开始。
(?!pattern)	正向否定预查，在任何不匹配pattern的字符串开始处匹配查找字符串。这是一个非获取匹配，也就是说，该匹配不需要获取供以后使用。例如“Windows(?!95\|98\|NT\|2000)”能匹配“Windows3.1”中的“Windows”，但不能匹配“Windows2000”中的“Windows”。预查不消耗字符，也就是说，在一个匹配发生后，在最后一次匹配之后立即开始下一次匹配的搜索，而不是从包含预查的字符之后开始。
(?<=pattern)	反向肯定预查，与正向肯定预查类似，只是方向相反。例如，“(?<=95\|98\|NT\|2000)Windows”能匹配“2000Windows”中的“Windows”，但不能匹配“3.1Windows”中的“Windows”。
(?<!pattern)	反向否定预查，与正向否定预查类似，只是方向相反。例如“(?<!95\|98\|NT\|2000)Windows”能匹配“3.1Windows”中的“Windows”，但不能匹配“2000Windows”中的“Windows”。
x\|y	匹配x或y。例如，“z\|food”能匹配“z”或“food”。“(z\|f)ood”则匹配“zood”或“food”。
[xyz]	字符集合。匹配所包含的任意一个字符。例如，“[abc]”可以匹配“plain”中的“a”。
[^xyz]	负值字符集合。匹配未包含的任意字符。例如，“[^abc]”可以匹配“plain”中的“p”。
[a-z]	字符范围。匹配指定范围内的任意字符。例如，“[a-z]”可以匹配“a”到“z”范围内的任意小写字母字符。
[^a-z]	负值字符范围。匹配任何不在指定范围内的任意字符。例如，“[^a-z]”可以匹配任何不在“a”到“z”范围内的任意字符。
\b	匹配一个单词边界，也就是指单词和空格间的位置。例如，“er\b”可以匹配“never”中的“er”，但不能匹配“verb”中的“er”。
\B	匹配非单词边界。“er\B”能匹配“verb”中的“er”，但不能匹配“never”中的“er”。
\cx	匹配由x指明的控制字符。例如，\cM匹配一个Control-M或回车符。x的值必须为A-Z或a-z之一。否则，将c视为一个原义的“c”字符。
\d	匹配一个数字字符。等价于[0-9]。
\D	匹配一个非数字字符。等价于[^0-9]。
\f	匹配一个换页符。等价于\x0c和\cL。
\n	匹配一个换行符。等价于\x0a和\cJ。
\r	匹配一个回车符。等价于\x0d和\cM。
\s	匹配任何空白字符，包括空格、制表符、换页符等等。等价于[ \f\n\r\t\v]。
\S	匹配任何非空白字符。等价于[^ \f\n\r\t\v]。
\t	匹配一个制表符。等价于\x09和\cI。
\v	匹配一个垂直制表符。等价于\x0b和\cK。
\w	匹配包括下划线的任何单词字符。等价于“[A-Za-z0-9_]”。
\W	匹配任何非单词字符。等价于“[^A-Za-z0-9_]”。
\xn	匹配n，其中n为十六进制转义值。十六进制转义值必须为确定的两个数字长。例如，“\x41”匹配“A”。“\x041”则等价于“\x04&1”。正则表达式中可以使用ASCII编码。
\num	匹配num，其中num是一个正整数。对所获取的匹配的引用。例如，“(.)\1”匹配两个连续的相同字符。
\n	标识一个八进制转义值或一个向后引用。如果\n之前至少n个获取的子表达式，则n为向后引用。否则，如果n为八进制数字（0-7），则n为一个八进制转义值。
\nm	标识一个八进制转义值或一个向后引用。如果\nm之前至少有nm个获得子表达式，则nm为向后引用。如果\nm之前至少有n个获取，则n为一个后跟文字m的向后引用。如果前面的条件都不满足，若n和m均为八进制数字（0-7），则\nm将匹配八进制转义值nm。
\nml	如果n为八进制数字（0-3），且m和l均为八进制数字（0-7），则匹配八进制转义值nml。
\un	匹配n，其中n是一个用四个十六进制数字表示的Unicode字符。例如，\u00A9匹配版权符号（©）。

注意：在具体语言中，转义字符使用不同。例如：在C++中，\\d表示\d

注意：以下例子中是以RegExr测试工具来说明的，其他工具请自测。

用圆括号组合元字符

圆括号可以将几个元字符组合成一组，那么这时使用数词元字符的话，数词会一次性处理这一组元素，如 " (http://)?www "，就可以匹配 " http://www和www "；它还可以进行多层嵌套，如((abc)\w{3})；在括号中还可以用一条竖线表示或的意思同时匹配多个元素，如((good)|(best))可以匹配字符串"best"或者是"good"。

实例	说明	匹配结果举例
(http://)?www	(http://)?匹配零个或一个"http://"这个字符串。	"www"、"http://www"
((abc)\w{3})	此实例中嵌套了2个圆括号，分别是(abc)和 ((abc)\w{3})	"abcooo"、"abc1_2"、"abco12"
((good)\|(best))	此实例中good与best中间有个竖线进行“或”运行，所以它可以匹配"best"也可以匹配"good"	"best"、"good"

捕获分组内容并进行反向引用

在很多应用环境中都可以将圆括号中匹配的内容存储到内存中同时分配一个组号，之后我们可以调用组号进行引用。例如正则表达式【(\d{3})([a-z]{3})】第一个圆括号匹配3个数字组成的字符串，如"111"，它会被分配一个组号$1；第二个圆括号匹配3个字母组成的字符串，如"aaa"，它会被分配一个组号$2。下面我们通过实例来一步步的解释在真实环境下，是怎样去实现反向引用的。

首先打开RegExr测试工具，选择replace选卡（图中的第一个红框），然后在剩下的三个红框位置按图中内容依次录入。这时查看一下结果，是不是发现111和aaa被调换了前后的顺序。这是因为我们在替换框中使用了$2$1。$2这个组号属于【([a-z]+)】，而$1属于【(\d+)】。看到这里我想大家就应该很清楚组号的作用了吧。此功能在apache重写模板和各种编程工具replace函数中都有应用。

非捕获匹配

通过前面的学习，我们知道，在使用圆括号进行分组匹配时，系统会存储圆括号匹配的内容，并分配组号，这种操作会占用一定的系统资源，影响正则表达式的执行效率，如果我们已经确定将来不会引用分组中的内容，那么也就无须让它保存在内存中。此时只需在圆括号中加上【?:】就行了，例如【(?:\b\w+\b)】。大家也可以通过下图的实例加深理解。

实例中系统只捕获了表达式中第一个分组中的内容，同时分配了组号$1。而第二组没有进行捕获，也没有分组号，最终替换的结果也只是把 " $2 " 这个字符给显示了出来。

先行断言

先行断言，看着名字大多数人会感觉比较难以理解，实际上它的作用很简单，就是匹配时，被匹配的字符左边或右边必需包括或不包括一个字符串。如下图中的实例：

(?<=name:)\b\w*\b

实例中的【(?<=name:)】表示匹配的内容的左边必需包括"name:"这个字符串。它在正则表达式中被称为“ 零宽正向后行断言”。先行断言总共有四总，见下表：

名称	作用	语法
零宽正向先行断言	匹配内容的右边必需包括pattern匹配的内容。	表达式(?=pattern)
零宽负向先行断言	匹配内容的右边不能包括pattern匹配的内容。	表达式(?!pattern)
零宽正向后行断言	匹配内容的左边必需包括pattern匹配的内容。	(?<=pattern)表达式
零宽负向后行断言	匹配内容的左边不能包括pattern匹配的内容。	(?!=pattern)表达式

匹配单词的边界处

【\b】可以匹配单词的边界处，这里的单词指的是字母、数字、下划线组成的连续的字符串，也就由一个或多个【\w】组成的连续的字符串。"ab_c"、"ab_01"、"11aa"他们都可以被看作是一个单词。知道了计算机中单词的定义后，我们看个实例，见下图。在"an banana"这个字符串中使用【an】可以匹配3个"an"（第一张图），但使用【\ban\b】的话就只会匹配单词"an"（第二张图）。

非贪婪匹配

在使用数词进行匹配的时候，表达式会尽可能多的匹配符合条件的元素，例如用ab+匹配abbbbbbb时，它不会匹配ab，也不会匹配abbbb，只会匹配abbbbbbb。这样的匹配方式被称为“贪婪匹配”。但有时我们不想要数词匹配过多的内容，例如使用【<div>.+</div>】来匹配"<div>test1</div><div>test2</div>"中的 "<div>test1</div>" 和 "<div>test2</div>" 时就会出现问题，见下图

如图所示，表达式【<div>.+</div>】会把整个字符串一次性的都匹配了，但这是不对的。解决办法之一就是在把表达式中的加号元字符【+】后面加上个问号【+?】，结果如下图。

类似于【+?】在正则表达式的数词后面加上问号的这种形式被称为“非贪婪匹配”，也就是数量词会尽可能少的去匹配符合条件的内容。例如上面的实例中【<div>.+</div>】可以匹配字符串"<div>test1</div><div>test2</div>"，"<div>test1</div>" 和 "<div>test2</div>"虽然都是符合匹配条件的，但它只会匹配内容最多的的那一个。而非贪婪模式下的【<div>.+?</div>】会匹配内容最少的那一个。

之前提到的四种表示数量的元字符【*】【?】【+】【{n,m}】都可以通过加上问号实现“非贪婪匹配”。详情见下表：

实例	说明	匹配结果举例
ba*?	匹配以b字母开头，后面有零个或多个a（取最少的a，那么也就是0个）	只能匹配b，而不能匹配ba
ba??	匹配以b字母开头，后面有1个或多个a（取最少的a，那么也就是1个）	只能匹配ba，而不能匹配baaaa
ba+?	匹配以b字母开头，后面有0个或1个a（取最少的a，那么也就是0个）	只能匹配b，而不能匹配ba
ba{3,4}?	匹配以b字母开头，后面有3个到4个a（取最少的a，那么也就是3个）	只能匹配baaa，而不能匹配baaaa

匹配汉字和其他亚洲字符

在正则表达式中匹配汉字通常使用的是【\uxxxx】的形式，xxxx代表的是汉字的unicode编码，如汉字“中”的unicode编码是" 4e2d ”，那么正则表达式中匹配“中”字就要使用【\u4e2d】，要匹配韩文日文都可以使用这种方式，您只需要查找到这些字符所对应的unicode编码就行了。（由于RegExr对这个功能的支持有bug，在下面为您另外提供了一个测试工具以及unicode编码查询工具。）

unicode编码查询工具：cntounicode
汉字匹配测试工具：hzpptool

实例	说明	匹配结果举例
\u6b63\u5219\u8868\u8fbe\u5f0f	6b63、5219、8868、8fbe、5f0f分别是汉字“正则表达式”的unicode编码	"正则表达式"
\u304a\u65e9\u3046	匹配日文 "お早う"	"お早う"

匹配空格和非空格

匹配空格字符使用【\s】，匹配非空格字符使用【\S】。

实例	说明	匹配结果举例
g\s\sd	匹配以g字母开头，以d字母结尾，中间是两个空格的字符串。	"g d"
g\S\Sd	匹配以g字母开头，以d字母结尾，中间是两个非空格字符的字符串。	"good"、"g12d"、"g-3d"

匹配换行符和回车符

换行符和回车符在不同的系统环境中使用的方式有所不同，这里我们把它们放到一起来学习。【\r】被称为换行符，而【\n】是回车符，但是具体的某个应用环境中，真正起到换行作用的有可能是【\r】(如ActionScript 3.0)，也有可能是【\n】（如JavaScript和unix），也有可能是【\n\r】（如dos），也有可能是【\r\n】（如windows内核）。它们之所以这么多的不同区别，那是有着历史原因的，想了解更多内容可以查看《换行符和回车符的历史》。

下面我们举例说明，看看它们具体是怎样进行匹配的。大家请先打开RegExr，在表示式一栏中输入【.+】，【+】表示【.】重复了一次或任意多次，内容一栏中输入随意输入两行字符。如下图所示（注意，一定要把global选项取消，它是全局匹配的意思，在之后的表达式选项一课中我们将会介绍到它）。

通过测试我们发现【.+】只匹配了第一行内容，因为【.】是不能匹配换行符的，所以到行尾匹配就结束了。想同时也匹配下一行，只需要把表示示改为【.+\r.+】。【\r】匹配行尾的换行符。结果见下图：

以上的实例都是在AS3.0的环境中用法，如果是在JavaScript中需要把【.+\r.+】改成【.+\n.+】。

按字符组匹配

之前的课程中我们知道【\d】可以匹配0-9，但有时只想匹配5,6,7,8这4个数字，这时可以使用方括号将要匹配的字符都列举出来如【[5678]】，方括号取了可以列举数字外，也可以列举字母如【[abc]】，如果列举出来的元素是连续的，也可以简写为【[a-d]】或【[5-9]】的形式，它还可以通过加上【^】符号实现反向匹配，如【[^abc]】匹配除了a、b、c这三个字符以外的所有字符。

方括号的使用的方式是灵活多变的，通过下表中的实例学习，相信大家很快就可以掌握。

实例	说明	匹配结果举例
[abc]123	匹配以"a"或"b"或"c"开头并以"123"结尾的字符串。	"a123"、"b123"、"c123"
[d-g]123	匹配以"d"或"e"或"f"或"g"开头并以"123"结尾的字符串。	"d123"、"e123"、"f123"、"g123"
[^2-5]\d\d\d	匹配除了 2,3,4,5 以外的所有字符，后面是任意3个数字组成的字符串。	"a123"、"6123"、"-123"、"(123"
[a-c2-3]good	匹配以"a"或"b"或"c"或"2"或"3"开头以"good"结尾的字符串。	"agood"、"bgood"、"3good"、"2good"
[^a-c2-3]	匹配除了"a"、"b"、"c"、"2"、"3"以外的所有字符。	"d"、"o"、"-"、"@"
[\da-c]	匹配0-9这10个数字，以及a、b、c这三个字符。	"1"、"2"、"a"、"b"

正则表达式语法支持情况

命令或环境	.	[ ]	^	$	****	\{ \}	?	+	\|	( )
vi	X	X	X	X	X
Visual C++	X	X	X	X	X
awk	X	X	X	X			X	X	X	X
sed	X	X	X	X	X	X
Tcl	X	X	X	X	X		X	X	X	X
ex	X	X	X	X	X	X
grep	X	X	X	X	X	X
egrep	X	X	X	X	X		X	X	X	X
fgrep	X	X	X	X	X
perl	X	X	X	X	X		X	X	X	X

其他有代表性的、比较简单的例子

vi 命令	作用
:%s/ */ /g	把一个或者多个空格替换为一个空格
:%s/ *$//	去掉行尾的所有空格
:%s/^/ /	在每一行头上加入一个空格
:%s/^[0-9][0-9]* //	去掉行首的所有数字字符
:%s/b[aeio]g/bug/g	将所有的bag、beg、big和bog改为bug。
:%s/t$[aou]$g/h\1t/g	将所有tag、tog和tug分别改为hat、hot和hut（注意用group的用法和使用\1引用前面被匹配的字符）

例1:

将所有方法foo(a,b,c)的实例改为foo(b,a,c)。这里a、b和c可以是任何提供给方法foo()的参数。也就是说我们要实现这样的转换：

之前之后

foo(10,7,2) foo(7,10,2)

foo(x+13,y-2,10) foo(y-2,x+13,10)

foo( bar(8), x+y+z, 5) foo( x+y+z, bar(8), 5)

下面这条替换命令能够实现这一魔法：

:%s/foo($[^,]*$,$[^,]*$,$[^)]*$)/foo(\2,\1,\3)/g

现在让我们把它打散来加以分析。写出这个表达式的基本思路是找出foo()和它的括号中的三个参数的位置。第一个参数是用这个表达式来识别的：：$[^,]*$，我们可以从里向外来分析它：

[^,] 除了逗号之外的任何字符

[^,]* 0或者多个非逗号字符

$[^,]*$ 将这些非逗号字符标记为\1，这样可以在之后的替换模式表达式中引用它

$[^,]*$, 我们必须找到0或者多个非逗号字符后面跟着一个逗号，并且非逗号字符那部分要标记出来以备后用。

现在正是指出一个使用正则表达式常见错误的最佳时机。为什么我们要使用[^,]*这样的一个表达式，而不是更加简单直接的写法，例如：.*，来匹配第一个参数呢？设想我们使用模式.*来匹配字符串"10,7,2"，它应该匹配"10,"还是"10,7,"？为了解决这个两义性（ambiguity），正则表达式规定一律按照最长的串来，在上面的例子中就是"10,7,"，显然这样就找出了两个参数而不是我们期望的一个。所以，我们要使用[^,]*来强制取出第一个逗号之前的部分。

这个表达式我们已经分析到了：foo($[^,]*$，这一段可以简单的翻译为“当你找到foo(就把其后直到第一个逗号之前的部分标记为\1”。然后我们使用同样的办法标记第二个参数为\2。对第三个参数的标记方法也是一样，只是我们要搜索所有的字符直到右括号。我们并没有必要去搜索第三个参数，因为我们不需要调整它的位置，但是这样的模式能够保证我们只去替换那些有三个参数的foo()方法调用，在foo()是一个重载（overoading）方法时这种明确的模式往往是比较保险的。然后，在替换部分，我们找到foo()的对应实例，然后利用标记好的部分进行替换，是把第一和第二个参数交换位置。

例2:

假设有一个CSV（comma separated value）文件，里面有一些我们需要的信息，但是格式却有问题，目前数据的列顺序是：姓名，公司名，州名缩写，邮政编码，现在我们希望讲这些数据重新组织，以便在我们的某个软件中使用，需要的格式为：姓名，州名缩写-邮政编码，公司名。也就是说，我们要调整列顺序，还要合并两个列来构成一个新列。另外，我们的软件不能接受逗号前后有任何空格（包括空格和制表符）所以我们还必须要去掉逗号前后的所有空格。

这里有几行我们现在的数据：

Bill Jones, HI-TEK Corporation , CA, 95011

Sharon Lee Smith, Design Works Incorporated, CA, 95012

B. Amos , Hill Street Cafe, CA, 95013

Alexander Weatherworth, The Crafts Store, CA, 95014

...

我们希望把它变成这个样子：

Bill Jones,CA 95011,HI-TEK Corporation

Sharon Lee Smith,CA 95012,Design Works Incorporated

B. Amos,CA 95013,Hill Street Cafe

Alexander Weatherworth,CA 95014,The Crafts Store

...

我们将用两个正则表达式来解决这个问题。第一个移动列和合并列，第二个用来去掉空格。

下面就是第一个替换命令：

:%s/$[^,]*$,$[^,]*$,$[^,]*$,$.*$/\1,\3 \4,\2/

这里的方法跟例1基本一样，第一个列（姓名）用这个表达式来匹配：$[^,]*$，即第一个逗号之前的所有字符，而姓名内容被用\1标记下来。公司名和州名缩写字段用同样的方法标记为\2和\3，而最后一个字段用$.*$来匹配（"匹配所有字符直到行末"）。替换部分则引用上面标记的那些内容来进行构造。

下面这个替换命令则用来去除空格：

:%s/[ \t]*,[ \t]*/,/g

我们还是分解来看：[ \t]匹配空格/制表符，[ \t]* 匹配0或多个空格/制表符，[ \t]*,匹配0或多个空格/制表符后面再加一个逗号，最后，[ \t]*,[ \t]*匹配0或多个空格/制表符接着一个逗号再接着0或多个空格/制表符。在替换部分，我们简单的我们找到的所有东西替换成一个逗号。这里我们使用了结尾的可选的g参数，这表示在每行中对所有匹配的串执行替换（而不是缺省的只替换第一个匹配串）。

例3:

假设有一个多字符的片断重复出现，例如：

Billy tried really hard

Sally tried really really hard

Timmy tried really really really hard

Johnny tried really really really really hard

而你想把"really"、"really really"，以及任意数量连续出现的"really"字符串换成一个简单的"very"（simple is good!），那么以下命令：

:%s/$really $$really $*/very /

就会把上述的文本变成：

Billy tried very hard

Sally tried very hard

Timmy tried very hard

Johnny tried very hard

表达式$really $*匹配0或多个连续的"really "（注意结尾有个空格），而$really $$really $* 匹配1个或多个连续的"really "实例。

常用的正则表达式

常用的正则表达式主要有以下几种：

匹配中文字符的正则表达式： [\u4e00-\u9fa5]

评注：匹配中文还真是个头疼的事，有了这个表达式就好办了哦

获取日期正则表达式：\d{4}[年|\-|\.]\d{\1-\12}[月|\-|\.]\d{\1-\31}日?

评注：可用来匹配大多数年月日信息。

匹配双字节字符(包括汉字在内)：[^\x00-\xff]

评注：可以用来计算字符串的长度（一个双字节字符长度计2，ASCII字符计1）

匹配空白行的正则表达式：\n\s*\r

评注：可以用来删除空白行

匹配HTML标记的正则表达式：<(\S*?)[^>]*>.*?</>|<.*? />

评注：网上流传的版本太糟糕，上面这个也仅仅能匹配部分，对于复杂的嵌套标记依旧无能为力

匹配首尾空白字符的正则表达式：^\s*|\s*$

评注：可以用来删除行首行尾的空白字符(包括空格、制表符、换页符等等)，非常有用的表达式

匹配Email地址的正则表达式：\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*

评注：表单验证时很实用

匹配网址URL的正则表达式：[a-zA-z]+://[^\s]*

评注：网上流传的版本功能很有限，上面这个基本可以满足需求

匹配帐号是否合法(字母开头，允许5-16字节，允许字母数字下划线)：^[a-zA-Z][a-zA-Z0-9_]{4,15}$

评注：表单验证时很实用

匹配国内电话号码：\d{4}-\d{7}|\d{3}-\d{8}

评注：匹配形式如 0511 - 4405222 或 021 - 87888822

匹配腾讯QQ号：[1-9][0-9]\{4,\}

评注：腾讯QQ号从1000 0 开始

匹配中国邮政编码：[1-9]\d{5}(?!\d)

评注：中国邮政编码为6位数字

匹配身份证：\d{17}[\d|X]|\d{15}

评注：中国的身份证为15位或18位

匹配ip地址：((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)。

评注：提取ip地址时有用

匹配特定数字：

^[1-9]\d*$　//匹配正整数

^-[1-9]\d*$ //匹配负整数

^-?[1-9]\d*$　//匹配整数

(^[1-9]\d*$)|0　//匹配非负整数（正整数 + 0）

(^-[1-9]\d*$)|0　//匹配非正整数（负整数 + 0）

^[1-9]\d*\.\d*|0\.\d*[1-9]\d*$　//匹配正浮点数

^-([1-9]\d*\.\d*|0\.\d*[1-9]\d*)$　//匹配负浮点数

^-?([1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0)$　//匹配浮点数

^[1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0$　//匹配非负浮点数（正浮点数 + 0）

^(-([1-9]\d*\.\d*|0\.\d*[1-9]\d*))|0?\.0+|0$　//匹配非正浮点数（负浮点数 + 0）

评注：处理大量数据时有用，具体应用时注意修正

匹配特定字符串：

^[A-Za-z]+$　//匹配由26个英文字母组成的字符串

^[A-Z]+$　//匹配由26个英文字母的大写组成的字符串

^[a-z]+$　//匹配由26个英文字母的小写组成的字符串

^[A-Za-z0-9]+$　//匹配由数字和26个英文字母组成的字符串

^\w+$　//匹配由数字、26个英文字母或者下划线组成的字符串

评注：最基本也是最常用的一些表达式

Function IsRegu(Regu,s)

'正则表达式校验

If Regu="" Then

Exit Function

End if

Dim Re,Sre

Set Re = New RegExp

Re.Pattern = Regu

Sre = Re.Test(s)

If Sre = True Then

IsRegu = True

Else

IsRegu = False

End If

End Function

tmp=" "

if (IsRegu("\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*",tmp )) =false then

msgbox "E-mail地址不合法！"

FieldCheck#N=false

end if

不同的语言（如PHP和JAVA）、相同语言的不同类库（如来自Sun的Java Regular Expression类库跟Apache Jakarta的正则表达式类库）间，用法会有所差别，在使用的时候，要注意这些差别。

Editplus等软件中正则替换技巧

正则表达式应用实例

【1】正则表达式应用——替换指定内容到行尾

原始文本如下面两行

abc aaaaa

123 abc 444

希望每次遇到“abc”，则替换“abc”以及其后到行尾的内容为“abc efg”

即上面的文本最终替换为：

abc efg

123 abc efg

解决：

① 在替换对话框，查找内容里输入“abc.*”，替换内容输入为“abc efg”

② 同时勾选“正则表达式”复选框，然后点击“全部替换”按钮

其中，符号的含义如下：

“.” =匹配任意字符

“*” =匹配0次或更多

注意：其实就是正则表达式替换，这里只是把一些曾经提出的问题加以整理，单纯从正则表达式本身来说，就可以引申出成千上万种特例。

【2】正则表达式应用——数字替换

希望把

asdadas123asdasdas456asdasdasd789asdasd

替换为:

asdadas[123]asdasdas[456]asdasdasd[789]asdasd

在替换对话框里面，勾选“正则表达式”复选框；

在查找内容里面输入“([0-9])([0-9])([0-9])”，不含引号

“替换为:”里面输入“[\1\2\3]”，不含引号

范围为你所操作的范围，然后选择替换即可。

实际上这也是正则表达式的使用特例，“[0-9]”表示匹配0～9之间的任何特例，同样“[a-z]”就表示匹配a～z之间的任何特例

上面重复使用了“[0-9]”，表示连续出现的三个数字

括号用来选择原型，进行分组，替换时要用

“\1”代表第一个“[0-9]”对应的原型，“\2”代表第二个“[0-9]”对应的原型，依此类推

“[”、“]”为单纯的字符，表示添加“[”或“]”，如果输入“其它\1\2\3其它”，则替换结果为：

asdadas其它123其它asdasdas其它456其它asdasdasd其它789其它asdasd

功能增强：

如果将查找内容“[0-9][0-9][0-9]”改为“[0-9]*[0-9]”，对应1 或 123 或 12345 或 ...

大家根据需要定制

相关内容还有很多，可以自己参考正则表达式的语法仔细研究一下

【3】正则表达式应用——删除每一行行尾的指定字符

因为这几个字符在行中也是出现的,所以肯定不能用简单的替换实现

比如

12345 1265345

2345

需要删除每行末尾的“345”

这个也算正则表达式的用法，其实仔细看正则表达式应该比较简单，不过既然有这个问题提出，说明对正则表达式还得有个认识过程，解决方法如下

解决：

在替换对话框中，启用“正则表达式”复选框

在查找内容里面输入“345$”

这里“$”表示从行尾匹配

如果从行首匹配，可以用“^”来实现，不过 EditPlus 有另一个功能可以很简单的删除行首的字符串

a. 选择要操作的行

b. 编辑－格式－删除行注释

c. 在弹出对话框里面输入要清除的行首字符，确定

【4】正则表达式应用——替换带有半角括号的多行

几百个网页中都有下面一段代码：

<!--

htmlAdWH('93163607', '728', '90');

//-->

</SCRIPT>

我想把它们都去掉，可是找了很多search & replace的软件，都是只能对“一行”进行操作。

EditPlus 打开几百个网页文件还是比较顺畅的，所以完全可以胜任这个工作。

具体解决方法，在 Editplus 中使用正则表达式，由于“(”、“)”被用做预设表达式（或者可以称作子表达式）的标志，所以查找

“<script LANGUAGE="JavaScript1.1">\n\n</SCRIPT>\n”

时会提示查找不到，所以也就无法进行替换了，这时可以把“(”、“)”使用任意字符标记替代，即半角句号：“.”。替换内容为

在替换对话框启用“正则表达式”选项，这时就可以完成替换了

补充：

对( ) 这样的特殊符号，应该用来表示，这也是很标准的regexp语法，可以写为

【5】正则表达式应用——删除空行

启动EditPlus，打开待处理的文本类型文件。

①、选择“查找”菜单的“替换”命令，弹出文本替换对话框。选中“正则表达式”复选框，表明我们要在查找、替换中使用正则表达式。然后，选中“替换范围”中的“当前文件”，表明对当前文件操作。

②、单击“查找内容”组合框右侧的按钮，出现下拉菜单。

③、下面的操作添加正则表达式，该表达式代表待查找的空行。（技巧提示：空行仅包括空格符、制表符、回车符，且必须以这三个符号之一作为一行的开头，并且以回车符结尾，查找空行的关键是构造代表空行的正则表达式）。

直接在"查找"中输入正则表达式“^[ \t]*\n”，注意\t前有空格符。

（1）选择“从行首开始匹配”，“查找内容”组合框中出现字符“^”，表示待查找字符串必须出现在文本中一行的行首。

（2）选择“字符在范围中”，那么在“^”后会增加一对括号“[]”，当前插入点在括号中。括号在正则表达式中表示，文本中的字符匹配括号中任意一个字符即符合查找条件。

（3）按一下空格键，添加空格符。空格符是空行的一个组成成分。

（4）选择“制表符”，添加代表制表符的“\t”。

（5）移动光标，将当前插入点移到“]”之后，然后选择“匹配 0 次或更多”，该操作会添加星号字符“*”。星号表示，其前面的括号“[]”内的空格符或制表符，在一行中出现0个或多个。

（6）选择“换行符”，插入“\n”，表示回车符。

④、“替换为”组合框保持空，表示删除查找到的内容。单击“替换”按钮逐个行删除空行，或单击“全部替换”按钮删除全部空行（注意：EditPlus有时存在“全部替换”不能一次性完全删除空行的问题，可能是程序BUG，需要多按几次按钮）。

【6】软件技巧——键盘记录的注意事项

EditPlus 的键盘记录有些类似于 UltraEdit 的宏操作，不过功能相对单一，录制的文件可编辑性较差。

由于基本无法编辑录制的文件，所以录制的时候为了避免录制失败，推荐纯粹使用键盘操作，以下是比较关键的几个键盘组合：

Ctrl+F = 调出查找对话框

Ctrl+H = 调出替换对话框

Alt+F4 = 关闭作用，比如，关闭查找对话框、关闭替换对话框，等等

其它键盘快捷键在“帮助－快捷键列表”里面可以很容易的查找到，这里就不细说了。

【7】软件技巧——关闭文档标签的便捷方法

右键单击文档标签工具条，弹出菜单中选择“标签选项”，选中“用鼠标中间的按钮关闭”，这里包括鼠标的滚轮。

【8】软件技巧——如何去掉 EditPlus 保存文本文件时的添加后缀提示？

如果你使用 EditPlus 进行文本编辑，那么每次创建文本文件，编辑后保存时，尽管文件类型下拉列表中显示的是文本文件， EditPlus 还是询问你是否添加".txt"后缀，是不是很烦？

解决方法:

① 在程序目录建立一个空的文件“template.txt”

② “工具－参数设置－模板”里面，单击“添加”按钮添加模板，“菜单文本”这里输入“Text”，浏览“template.txt”，之后确定即可

③ “文件－新建－text”，就可以建立一个空的文本文件，保存时，这个文件自动带有扩展名".txt"，也就避免了令人头疼的确认

④ 模板设置文件名称为“template.ini”，如果和主程序同一路径，可以使用相对路径

罗嗦了点，不过管用

要自动创建带有某种后缀的文件，方法同上。

【9】软件技巧——提示找不到语法文件 *.stx 的解决办法

原因多为设置的语法文件不存在或者是路径设置不对。这是因为 EditPlus 的语法是设置文件采用的是绝对路径，而在你设置了语法文件之后，再把程序复制到其它目录，因而导致 EditPlus 无法找到该语法文件。

解决办法：

在主程序目录里，找到 Setting.ini 这是 EditPlus 存放语法的文件

查找后缀为“.stx”、“acp”的文本内容，或者查找带有驱动器符号的行，比如

Syntax file=C:\Program Files\EditPlus 2\cpp.stx

那么，就把”C:\Program Files\EditPlus 2\“替换成你当前软件的路径。

其它提示找不到文件的解决方法同上

【10】软件技巧——设置editplus支持其它文字，如韩文

在editplus里打开文件，出来打开文件对话框；然后点击“转换器”后面的那个省略号，会出来自定义转换器对话框；在右边选择你需要的编码方式，添加到左边，然后点确定；最后在下拉框中选择需要的编码方式，然后打开文件即可。

【11】软件技巧——FTP 上传的设置

“文件->远程操作->FTP 上传”在“设置”选项卡中设置好参数（“子目录”前面应该加“/”如“/web/”），点击“确定”回到“FTP 上传”选项卡，然后点击“上传”即可；“批量上传”的设置类似。

【12】软件技巧——如何禁用备份文件功能？

在“参数选择”的文件选项页，禁用“'保存时自动创建备份文件”选项

【13】软件技巧——添加语法文件、自动完成文件、以及剪辑库文件

要添加 *.STX（语法文件）或 *.ACP（自动完成文件）：

1. 选择“参数选择→语法”

2. 单击“添加”按钮，命名，在“扩展名”部分输入对应扩展名（不带“.”）

3. 浏览/输入 STX（语法文件部分）以及 ACP（自动完成文件部分）。

添加剪辑库文件（*.CTL）

复制相应 *.CTL 文件到软件安装目录，重新启动 EditPlus ，则系统自动识别。

作者主页有很多语法自动完成文件下载，（地址见扩展阅读3）

【14】工具集成——编译器集成例子（Java、Borland C++、Visual C++、Inno Setup、nsis）

在“工具→参数选择→用户工具”选项页设置，设置步骤

① 设置组名称，这里也可以不设置

② 单击“添加工具→应用程序”按钮并进行如下设置

③ 各种类似"$(FilePath)"的参数可以在文本框右侧的箭头下拉菜单中获取，具体含义如下

参数描述

$(FilePath) 文件路径（文件全名，含目录和文件名）

$(FileDir) 文件目录（不带文件名）

$(FileName) 文件名（不带目录）

$(FileNameNoExt) 不带扩展名的文件名（不带目录）

$(FileExt) 扩展名（当前文件）

$(ProjectName) 工程名称（当前工程名）

$(CurLine) 当前行号（光标位置处的行号）

$(CurCol) 当前列号（光标位置处的列号）

$(CurSel) 当前文本（插入当前选定文本）

$(CurWord) 当前单词（插入当前单词）

$(WindowList) 显示当前窗口列表并选择特定文件

例子 1. Java 编译器

菜单文本：Java 编译器

命令：c:\java\bin\javac.exe

参数："$(FilePath)"

初始目录：$(FileDir)

捕获输出：开启

要运行已编译的 Java 类文件，你可以进行如下设置：

菜单文本：Java

命令：c:\java\bin\java.exe

参数：$(FileNameNoExt)

初始目录：$(FileDir)

“命令”部分应当替换为实际的 Java 解释器的路径。

例子 2. Borland C++

菜单文本：Borland C

命令：c:\bc\bin\bcc32.exe

参数：-Ic:\bc\include -Lc:\bc\lib -n$(FileDir) $(FilePath)

初始目录：c:\bc\bin

捕获输出：开启

例子 3. Visual C++

菜单文本：Visual C++

命令：c:\msdev\vc98\bin\cl.exe

参数："$(FilePath)"

初始目录：$(FileDir)

捕获输出：开启

例子 4. Inno Setup

菜单文本：编译 Inno

命令：C:\Program Files\Inno Setup 4\Compil32.exe”

参数：/cc $(FileName)

初始目录：$(FileDir)

捕获输出：开启

例子 5. nsis

菜单文本：编译 nsis

命令：C:\NSIS\makensis.exe

参数：$(FileName)

初始目录：$(FileDir)

捕获输出：开启

例子 6. C#

菜单文本：编译 C#

命令：C:\WINDOWS\Microsoft dot NET\Framework\v1.0.3705\csc.exe

参数：$(FileName)

初始目录：$(FileDir)

捕获输出：开启

在上面设置中，在命令部分，必须使用系统中各自编译器的绝对路径。

设置完毕后，你可以在“工具”菜单运行对应工具了，运行结果会显示在底部的输出窗口，你也可以通过快捷键(Ctrl + 0-9) 运行，或者是通过“用户工具栏”的快捷按钮运行。

要运行已编译的 *.exe 文件，你可以进行如下设置（此时可执行文件需要和编译文件同名）：

菜单文本：Run

命令：$(FileNameNoExt)

参数：

初始目录：$(FileDir)

【15】工具集成—— 让Editplus调试PHP程序

1:打开Editplus，选择"工具->配置用户工具..."菜单。

2:在弹出的窗口中选择"添加工具->应用程序",给新程序起一个好记的名字，比如这里我们用"Debug PHP",在"菜单文本"中输入"Debug PHP"。点击"命令行"右边的按钮,找到你的php.exe所在的路径，例如这里是"c:\php\php.exe"。再点击"参数"右边的下拉按钮选择"文件路径",最后再把"捕获输出"前面的复选框选上。

3:现在测试一下，新建一个php文件，按快捷键Ctrl+1可以激活刚才我们设置的工具(如果你设置了多个工具,快捷键可能会有所不同),现在你可以看到它已经能正常工作了。但是还有一点不太理想:如果你的PHP程序出错,在输出窗口会提示你第几行出错 ,单击这一行提示,Editplus老是提示你找不到某某文件，是否新建。接下下我们要修正这个功能。

4:打开刚才用户工具设置窗口，找到刚才设置的"Debug PHP"工具。点击"捕获输出"复选框旁边的"输出模式"按钮,会弹出一个定义输出模式的窗体，把"使用默认输出模式"前面的复选框去掉, 在"正则表达式"这一项的文本框中输入" ^.+ in (.+) line ([0-9]+) "(不包括引号),细心的朋友可能会发现，这里使用的也正则表达式的语法。然后，在下面的"文件名"下拉菜单中选择"预设表达式 1"，即上边正则表达式中的第一个参数,"行"下拉菜单项选择"预设表达式 2"，"列"下拉项保持为空。然后保存设置。

5:好了，现在再来试一下吧，双击出错的行数，Editplus就会自动激活出错文件，并把光标定位到出错行,是不是特别方便呢?!

现在,Editplus经过我们的"改造",已经可以即时的调试PHP文件了，虽然还不是"可视化"界面的，但对于一些平常的小程序来查错还是非常好用的。Editplus真是不款不可多得的好工具，如果你有什么使用技巧，不要忘了大家一起分享哦。

如果不能切换错误行号，请尝试作如下修改：（by aukw@CCF）

1.php.ini 中html_errors = Off打开

//如果你不打开，3.中的表达式要修改

2.参数改成：-q -f "$(FilePath)"

//不加"符号的话文件名有空格的文件调试失败。

//-q不输出html头信息，你去掉也行，不过调试时候你一般用不到那些header信息

3." ^.+ in (.+) line ([0-9]+) " 改成 "^.+ in (.+) on line ([0-9]+)$"

//如果还是不行，请注意调试结果，自己修改表达式来取出文件名和行号

【16】工具集成——打造 PHP 调试环境(二)

1: 把剪辑库定位在 PHP4 Functions 上就可以在编辑时, 利用[插入]->[匹配剪辑]命令,就可以自动完成末输入完整的 PHP 函数(或直接按 F2 键)

2: 类似上面,在选择部分文字后,同样可以自动完成。(同 F2)

3: 在[参数选择]->[设置和语法]->PHP->自动完成, 选择目录下的 php.acp 文件,你可以定制自己的自动完成方式.

4: 想要即时预览文件,可在[参数选择]->[工具]->WEB 服务器中添加本地目录，(注意不要加 http:// , 应是一个有效的站点)。

如: 主机->localhost/php | 根目录->D:\php

主机->localhost/asp | 根目录->D:\asp

主机->localhost/cgi | 根目录->D:\cgi

完成设置后只要脚本文件位于这些目录下(子目录也没问题), 就能够正确解释.

5: 各种语法和模板文件可以在官方网站获得（地址见扩展阅读3），可根据需要选用和编辑。

6: Ctrl+F11 可显示当前文件中的函数列表.

7: 添加各种用户工具.如:

启动MYSQL服务器管理工具->C:\mysql\bin\winmysqladmin.exe

启动Apache服务器->C:\Apache\bin\Apache.exe -k start

启动Apache服务器->C:\Apache\bin\Apache.exe -k stop (shutdown)

8: DBG 附带有一个 prof_results.php 文件,可剖析 PHP 程序的性能.

虽不是真正的调试器,但已经够了.

OK! 经过改造后,是不是有点象一个 IDE 什么?还差点,没有即时帮助...看我的,再来:

9: 把 php_manual_en.chm (最好是扩展帮助手册)加入到用户工具中, 当遇到需要参考的关键字时, 把光标定位其上, 按下快捷键 Ctrl+1, 看到了吗.

在输入时有想不起来的函数名时, 先按照第 1 条的方法调出函数, 然后...怎么样?

以上有的是对于调试工具的设置，由于此类工具比较多，大家设置时参考以上的基本就差不多了，所以就不过多的列举了。

【17】在 WINPE 中集成 EDITPLUS

可以基于目前的bartpe做得WINPE中，菜单使用nu2menu制作

默认位置为 \programs\editplus\

默认系统位置为光盘的 i386 目录

i386/system32 的 autorun.bat 中添加外壳集成（系统右键）

regedit /s %SystemDrive%\programs\editplus\REG.REG

regsvr32 /s \programs\editplus\EPPSHELL.DLL

（reg.reg保存了epp的工具栏信息，当然注册用户也可以放置注册信息）

复制editplus安装包里面的文件到programs\editplus\，注意，如果有setting.ini，删掉该文件，在nu2menu里面加入以下句子（可以根据需要安排位于特定菜单条目下）

<MITEM TYPE="ITEM" DISABLED="@Not(@FileExists(@GetProgramDrive()\Programs\EditPlus\editplus.exe))" CMD="RUN"

FUNC="@GetProgramDrive()\Programs\EditPlus\editplus.exe">EditPlus 文本编辑</MITEM>

【18】支持带UTF-8标记/不带UTF-8标记的文件 Lei@DRL提出并测试

这里Byte Order Mark翻译为标记/文件头/标签

参数选择－文件－里面设置“支持不带有UTF-8文件头的UTF－8文件”，我这里翻译标签为UTF-8文件头，如果复选该项，应该是保存为不带标签的Utf-8，如果不复选，应该是保存成带有BOM的UTF-8。

这样就可以打开带签名的UTF-8文件，并且可以正常编辑，但是又不能打开不带签名的了，想要打开不带签名的还需要改回来...不过虽然有点麻烦，但是总算能用了

1.验证用户名和密码：（"^[a-zA-Z]\w{5,15}$"）正确格式："[A-Z][a-z]_[0-9]"组成,并且第一个字必须为字母6~16位；

2.验证电话号码：（"^(\d{3.4}-)\d{7,8}$"）正确格式：xxx/xxxx-xxxxxxx/xxxxxxxx；

3.验证身份证号（15位或18位数字）：（"^\d{15}|\d{18}$"）；

4.验证Email地址：("^\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*$")；

5.只能输入由数字和26个英文字母组成的字符串：("^[A-Za-z0-9]+$") ;

6.整数或者小数：^[0-9]+\.{0,1}[0-9]{0,2}$

7.只能输入数字："^[0-9]*$"。

8.只能输入n位的数字："^\d{n}$"。

9.只能输入至少n位的数字："^\d{n,}$"。

10.只能输入m~n位的数字：。"^\d{m,n}$"

11.只能输入零和非零开头的数字："^(0|[1-9][0-9]*)$"。

12.只能输入有两位小数的正实数："^[0-9]+(.[0-9]{2})?$"。

13.只能输入有1~3位小数的正实数："^[0-9]+(.[0-9]{1,3})?$"。

14.只能输入非零的正整数："^\+?[1-9][0-9]*$"。

15.只能输入非零的负整数："^\-[1-9][]0-9"*$。

16.只能输入长度为3的字符："^.{3}$"。

17.只能输入由26个英文字母组成的字符串："^[A-Za-z]+$"。

18.只能输入由26个大写英文字母组成的字符串："^[A-Z]+$"。

19.只能输入由26个小写英文字母组成的字符串："^[a-z]+$"。

20.验证是否含有^%&',;=?$\"等字符："[^%&',;=?$\x22]+"。

21.只能输入汉字："^[\u4e00-\u9fa5]{0,}$"

22.验证URL："^http://([\w-]+\.)+[\w-]+(/[\w-./?%&=]*)?$"。

23.验证一年的12个月："^(0?[1-9]|1[0-2])$"正确格式为："01"～"09"和"1"～"12"。

24.验证一个月的31天："^((0?[1-9])|((1|2)[0-9])|30|31)$"正确格式为；"01"～"09"和"1"～"31"。

启示

心得体会

（1）心中时刻保持新颖想法，尝试用各种新办法来解决遇到的问题。对于遇到的问题，在用常规的解决思路无法解决或不能很好解决的时间，可以大胆探索尝试采用新的方法或思路来解决问题，说大点就是创新！没有新思路估计今天的正则表达式还要等几百年才能露现人间。

（2）善于学习和借鉴前人的经验和成果，UNIX鼻祖Ken Thompson是什么样子的人？是被计算机界尊称为“UNIX之父”的大师级别的人物，大师都在不断思考从其它学科、其它知识领域的工作成果，来改进自己的工作或程序，事实也证明这样做取得巨大结果和后来的深远影响是事先谁也无法预估到的，我们在做一些事情或研究的时间，是否也考虑学习大师的优秀习惯？

（3）学好数学、英语并保持对数学、英语的兴趣，数学也是人类几千年积累的智慧结晶，学习数学知识可以培养和训练人的思维能力。看这篇文章的朋友，我想很多都是计算机相关专业的朋友，至于数学和英语对于计算机学习和发展的重要性的道理，这里就不在多说，重在实践加持之以恒！

（4）养成独立思考的习惯。上学时候老师经常说人与动物的最大区别是人能思考。拉美洲有句关于“思考”的谚语是，不会思考的人是白痴，不肯思考的人是懒汉，不敢思考的人是奴隶。我想大家和我一样，既不愿做懒汉、奴隶，更不愿做白痴。所以相信正则分享网的朋友们一定会选择做一个“会思、肯思、敢思”的人。

正则表达式匹配规则

一切从最基本的开始。模式，是正规表达式最基本的元素，它们是一组描述字符串特征的字符。模式可以很简单，由普通的字符串组成，也可以非常复杂，往往用特殊的字符表示一个范围内的字符、重复出现，或表示上下文。例如：

^once

这个模式包含一个特殊的字符^，表示该模式只匹配那些以once开头的字符串。例如该模式与字符串"once upon a time"匹配，与"There once was a man from NewYork"不匹配。正如如^符号表示开头一样，$符号用来匹配那些以给定模式结尾的字符串。

bucket$

这个模式与"Who kept all of this cash in a bucket"匹配，与"buckets"不匹配。字符^和$同时使用时，表示精确匹配（字符串与模式一样）。例如：

^bucket$

只匹配字符串"bucket"。如果一个模式不包括^和$，那么它与任何包含该模式的字符串匹配。例如：模式

once

与字符串 There once was a man from NewYorkWho kept all of his cash in a bucket. 是匹配的。

在该模式中的字母(o-n-c-e)是字面的字符，也就是说，他们表示该字母本身，数字也是一样的。其他一些??表符等），要用到转义序列。所有的转义序列都用反斜杠(\)打头。制表符的转义序列是：\t。所以如果我们要检测一个字符串是否以制表符开头，可以用这个模式：

^\t

类似的，用\n表示“新行”，\r表示回车。其他的特殊符号，可以用在前面加上反斜杠，如反斜杠本身用\\表示，句号.用\.表示，以此类推。

posted on 2012-11-25 11:42 Eternal Code 阅读(763) 评论(0) 编辑收藏举报

命令或环境	.	[ ]	^	$	\( \)	\{ \}	?	+	\|	( )
vi	X	X	X	X	X
Visual C++	X	X	X	X	X
awk	X	X	X	X			X	X	X	X
sed	X	X	X	X	X	X
Tcl	X	X	X	X	X		X	X	X	X
ex	X	X	X	X	X	X
grep	X	X	X	X	X	X
egrep	X	X	X	X	X		X	X	X	X
fgrep	X	X	X	X	X
perl	X	X	X	X	X		X	X	X	X