C#正则表达式学习【网摘】

图1 MSDN Library中正则表达式命名空间

Capture 用于单个表达式捕获结果
CaptureCollection 用于一个序列进行字符串捕获
Group 表示单个捕获的结果
GroupCollection 表示捕获组的集会
Match 表示匹配单个正则表达式结果
MatchCollection 表示通过迭代方式应用正则表达式到字符串中
Regex 表示不可变的正则表达式
RegexCompilationInfo 将编译正则表达式需要提供信息


[注意]

    本文属于初学正则表达式的入门文章,对于高级的分组(Group)及其涉及语法等在这里不做介绍;


正则表达式基础知识

 

  • 基本语法

 

    在正则表达式中拥有一套自己的语法规则,常见语法包括;字符匹配、重复匹配、字符定位、转义匹配和其他高级语法(字符分组、字符替换和字符决策);

 

字符匹配语法:

字符语法语法解释语法例子
\d 匹配数字(0~9) ‘\d’匹配8,不匹配12;
\D 匹配非数字 ‘\D’匹配c,不匹配3;
\w 匹配任意单字符 ‘\w\w’ 匹配A3,不匹配@3;
\W 匹配非单字符 ‘\W’匹配@,不匹配c;
\s 匹配空白字符 ‘\d\s\d’匹配3 d,不匹配abc;
\S 匹配非空字符 ‘\S\S\S’匹配A#4,不匹配3 d;
. 匹配任意字符 ‘....’匹配A$ 5,不匹配换行;
[…] 匹配括号中任意字符 [b-d]匹配b、c、d, 不匹配e;
[^…] 匹配非括号字符 [^b-z]匹配a,不匹配b-z的字符;

    重复匹配语法


重复语法语法解释语法例子
{n} 匹配n次字符 \d{3}匹配\d\d\d,不匹配\d\d或\d\d\d\d
{n,} 匹配n次和n次以上 \w{2}匹配\w\w和\w\w\w以上,不匹配\w
{n,m} 匹配n次上m次下 \s{1,3}匹配\s,\s\s,\s\s\s,不匹配\s\s\s\s
? 匹配0或1次 5?匹配5或0,不匹配非5和0
+ 匹配一次或多次 \S+匹配一个以上\S,不匹配非一个以上\S
* 匹配0次以上 \W*匹配0以上\W,不匹配非N*\W

    字符定位语法:


重复语法语法解释语法例子
^ 定位后面模式开始位置  
$ 前面模式位于字符串末端  
\A 前面模式开始位置  
\z 前面模式结束位置  
\Z 前面模式结束位置(换行前)  
\b 匹配一个单词边界  
\B 匹配一个非单词边界  

    转义匹配语法:


转义语法涉及字符(语法解释)语法例子
“\”+实际字符 \ . * + ? | ( ) { }^ $ 例如:\\匹配字符“\”
\n 匹配换行  
\r 匹配回车  
\t 匹配水平制表符  
\v 匹配垂直制表符  
\f 匹配换页  
\nnn 匹配一个8进制ASCII  
\xnn 匹配一个16进制ASCII  
\unnnn 匹配4个16进制的Uniode  
\c+大写字母 匹配Ctrl-大写字母 例如:\cS-匹配Ctrl+S

  • 构造正则表达的方法


 

    构造正则表达式需要涉及Regex类,在Regex类中包括:IsMatch()、Replace()、Split()和Match的类;

 

 

(1) IsMatch()方法;


 

    IsMatch()方法实际上是一个返回Bool值得方法,如果测试字符满足正则表达式返回True否则返回False;



例1;判断是非成都地区电话号码合法;

分析:成都地区电话号码组成028********,前面为固定区号028,后面满足8位数字;

设计正则表达式:028\d{8}(解释:028区号固定,后面为8个数字\d组成);

程序代码,如图2所示:

C#正则表达式快速入门(图二)

 

图2 “例1” IsMatch方法是用例

(2) Replace()方法;


 

    Replace()方法实际上是一种替换的方法,替换匹配正则表达式匹配模式;



例2:在发布带有公开电子邮件地址的文章时,替换@位AT避免产生垃圾邮件

分析:首先需要判断文章中电子邮箱地址,然后执行替换

设计正则表达式:判断电子邮箱表达式”\w{1,}@w{1,}\\.”;

程序代码:如图3所示;

C#正则表达式快速入门(图三)
图3 “例2”Replace方法是用例

 

3) Split()方法;

    Split()方法实际上是拆分的方法,根据匹配正则表达式进行拆分储存在字符串数组中;



例3:从群发邮件地址中读取所有邮件地址;

分析:群发邮件采用“;”作为分割符,需要通过“;”进行拆分

程序代码:如图4所示;

C#正则表达式快速入门(图四)
点击查看大图

图4 “例3”Split方法是用例


 

构建表达式基本方法


 

    构造Regex对象的构造函数包括两个重载,一个是不含参数的构造、另外一个是含有参数的构造函数;


 


  • 基本形式Regex(string pattern);
  • 重载形式Regex(string pattern,RegexOptions);


 

    补充:RegexOptions属于枚举类型,包括IgnoreCase(忽略大小写)、ReghtToLeft(从右向左)、None(默认)、CultureInvariant(忽略区域)、Multline(多行模式)和SingleLine(单行模式);



例4,建立一个合法ISBN验证格式;

分析:ISBN格式为X-XXXXX-XXX-X;

正则表达式格式:\d-\d{5}-\d{3}-\d

构造该正则表达式函数Regex ISBNRegex = new Regex(表达式,参数为空)

详细代码:如图5所示;

C#正则表达式快速入门(图五)
图5 “例4”构造验证函数是用例

点击查看大图

 

 

 

编写一个检验程序

    为了方便自己在学习正则表达式和快速检验自己编写表达式语句是否正确,下面提供一个IsMatch()方法正则表达式验证器编写;


 


  1. 打开VS.NET,选择新建项目中的Visual C#项目的Windows应用程序,取名为“Regex_Tools”;
  2. 然后编写如图6所示的界面

    C#正则表达式快速入门(图六)

 

 

posted on 2008-09-05 00:42  陈老师博客  阅读(218)  评论(0编辑  收藏  举报

导航