C#菜鸟正则表达式一

  LZ菜鸟,仅整理笔记,顺带记录一下,谓之增加印象。

  LZ认为,没必要太纠结原理,模型, 屌丝能用就对了,剩下的事情用多了自然会去探索。

     中文:正则表达式,英文:Regular  ExPression,也叫匹配模式(pattern),用来检验字符串是否满足特定的规则,或从字符串捕获满足特定规则的子串。

     字符匹配

     最简单的正则表达式由“普通字符”和“通配符”组成。比如“Room\d\d\d”就是这样的正则表达式。

    

     其中 “Room” 是普通字符,而“\d”是通配符,表示该位置上有一个数字。该表达式一共占用了7个位置,第一个位置上是字母“R”,而第二个和第三个位置上都是位置“o”,第四个位置上是“m”,而第五个到第七个位置上是三个数字。所以正则表达式“Room\d\d\d”代表着以“Room”开头,以三个数字结尾的那一类字符串。比如字符串”Room010”,"Room111"都与“Room\d\d\d”匹配。

      

    这些特殊字符在正则表达式中称为元字。因为符号“ . ”在正则表达式里已有特殊符用处,所以要想表达“ . ”本身,需要使用它的转移符 “ \. ”,同样表达符号 ”\“本身,需要使用它的转移符”\\“。

    .NET提供了一批与正则表达式相关的类,它们都位于 using System.Text.RegularExpressions  命名空间里,现在我们来看下Regex类。

 

 

  Regex类的部分方法

    

      通过Regex.Matches()方法,可以从给定字符串中分解出所有与正则表达式匹配的子串,这些子串被保存在一个MatchCollection 型的集合中,每个子串都被看做Match类的对象。现在假设某份电子文件里包含着Kitty的房间号(格式如前面的 RoomXXX),档案很长,人工查阅费时费力,那么如何通过计算机帮我们找到房间号呢? 是时候祭出正则兄了!

     

 小例子时间到了:       
//命名空间 using System.Text.RegularExpressions;
string text = "kitty住在room415,tonny住在room332"; Regex expression = new Regex(@"room\d\d\d"); MatchCollection mathes = expression.Matches(text);//匹配的结果是一个集合 foreach(Match match in mathes) Console.WriteLine(match); Match match1 = expression.Match(text);//匹配结果是单个 Console.WriteLine(match1); Console.WriteLine(match1.NextMatch());//下一个匹配 bool match2= expression.IsMatch(text);//是否有匹配 Console.WriteLine(match2);

            

 

     @前缀和转移字符  

      我们前面学习过控制文本格式的转移字符,如” \n “   " \" "   "  \t  "  " \\ "等,现在又学习了正则表达式的转移字符,如 " \. "  "  \w "  " \d "  "  \s  " "  \\ "等,在正则中它们是有区别的。

      Regex exoression=new Regex("\d");

     这样写就会出现错误,因为反斜杠 ”  \ “ 本身就是一个特殊的字符,要想表示反斜杠本身,需要使用它的转移符 ” \\ “ ,所以需要写成下面的形式:

      Regex expression =new Regex("\\d"); 

      但是这种形式会降低可读性,所以我们通常使用加 @ 前缀的方式。

  Regex expression =new Regex(@"\d");

      这时会忽略控制文本的格式的转移符,但不忽略正则表达式的转移符。

      添加前缀@后,如果字符串里需要引用双引号本身,就可以用连续的双引号来表示。

      Regex expression=new Regex(@"Say ""Hello"" ")

 

      @可选字符集

      除了通配符外,我们还可以把某个位置上允许出现的字符卸载方括号 [] 内,组成可选字符集,比如:

     

 

//可选字符:
            string text = "Vitor-1970 Verne-1982 Regan-1998 Robin-2008";
            Regex regex = new Regex(@"[VR][a-z]+-19[89][0-9]");//[VR][a-z]第一个字符V或者R,第二个字符a到z,+ 号表示后面都是a-z
            foreach (Match match in regex.Matches(text))
            Console.WriteLine(match);

            反向字符:
            string text2 = "dog bod fog hog log";
            Regex regex2 = new Regex(@"[^bd]og"); //第一个字符非b或者d
            foreach(var match in regex2.Matches(text2))
       {
                Console.WriteLine(match);
            } Console.WriteLine(match);


 

        或匹配符

      

            string text3 = "there is a bee in the tree";
            Regex regex3 = new Regex(@"(tr|b)ee"); //tr或者b+ee
            foreach (var match in regex3.Matches(text3))
            Console.WriteLine(match);



 

  Tips:鉴于正则表达式难以书写,常用的我们可以百度,入匹配注册信息之类的,如果自己编写不靠谱,可以使用 "Regex Tester"工具来测试。

posted on 2016-02-24 11:22  哥不寂寞  阅读(592)  评论(0编辑  收藏  举报

导航