正则表达式

正则表达式是用来进行文本处理的技术，是语言无关的，在几乎所有语言中都有实现。javascript中还会用得到。
一个正则表达式是由普通字符串以及特殊字符字符（称为元字符）组成的文字模式，该模式描述在查找文字主体时，待匹配的一个或多个字符串。正则表达式作为一个模板，将某个字符模式与所搜索的字符串进行比较。
就像通配符“*.jpg”、“%ab%”,它是对字符串进行匹配的特殊字符串。
正则表达式是非常复杂的，不要希望一次能掌握，理解正则表达式能做什么（字符串的匹配，字符串的提取，字符串的替换），掌握常用的正则表达式语法，以后用到再查就行。
找工作的亮点，后面项目中的采集器，敏感词过滤、URLRewite、Validator也会涉及到正则表达式。
正则表达式是对字符串进行操作的
理解元字符是一个必须攻克的难关

（1）.：匹配除\n之外的任何一个字符。例如正则表达式“b.g”能匹配如下字符串：“big”、“bug”、“b g”，但是不匹配“buug”,"b..g"可以匹配“buug”。

（2）[]：匹配括号中的任何一个字符。例如正则表达式“b[aui]g”匹配bug、big和bag,但是不匹配beg、baug。也可以在括号中使用连字符“-”来指定字符的区间。例如正则表达式[0-9]可以匹配任何数字字符，这样正则表达式"a[0-9]c"等价于"a[0123456789]c"就可以匹配“a0c”、“a1c”,"a2c"等字符串；还可以制定多个区间，例如“[A-Za-z]”可以匹配任何大小的字母，“[A-Za-z0-9]”,可以匹配任何的大小写字母或者数字。

匹配11-20之间的数字，正则表达式为[12][0-9],不能写成[10-29],因为这里的10和29只是表示字符1 或0 2或9

（3）（）：将（）之间括起来的表达式定义为“组”（group），并且将匹配这个表达式的字符保存到一个临时区域，这个元字符在字符串提取的时候非常有用。把一个字符串表示为一个整体。改变优先级，定义提取组两个作用。

限定符：限定前面的表达式出现的次数。

(4)*:匹配多个在它之前的子表达式，和通配符没有关系。例如正则表达式“zo*”等同于“z(o*)”能匹配“z”,"zo"以及"zoo",因此"*“意味着能够匹配任意字符串。

”z(b|c)*“可以匹配zb,zbc,zcb,zcccc,zbbbcc。”z(ab)*"能匹配zab,zabab(用括号表示优先级)。

（5）+：匹配前面的子表达式一次或多次，和*对比（0到多次）。例如正则表达式，9+匹配9，99，999等。"zo+“以及”zoo",不能匹配"z“。

（6）？：匹配前面的子表达式零次或一次。例如”do(es)?"可以匹配"do“,”does"。一般用来匹配"可选部分“。

（7）｛n｝:匹配确定的n次。”zo{2}“-zoo。例如”e{2}“不能匹配”bed“中的”e“,但是能匹配”seed“中的两个”e“。

（8）｛n,｝:至少匹配n次。例如”e{2,}“不能bed中的”e“,但能匹配”seeeeeed“中的所有”e“。

（9）｛n,m｝:最少匹配n次最多匹配m次。”e{1,3}“

(10)^匹配一行的开始，例如正则表达式”^regex“能够匹配字符串“^regex我会用”的开始，但是不能匹配“我会用regex”。^另外一种意思：非[^0-9]，放在中括号里面表示非，其余地方都表示为匹配一行的开始

(11)$匹配行结束符。例如正则表达式“浮云$”,能够匹配字符串“一切都是浮云”的末尾，但是不能匹配字符串“浮云呀”。

简写表达式

♦注意简写表达式是不考虑转义符的。这里的\就表示字符\，而不是c#级别的\，在c#代码中使用@或\双重转义。区分c#级别的转义和正则表达式级别的转义，恰好c#的转义\和正则表达式级别的转义符都是\而已。正则表达式的转义是在c#之后的（层层盘剥）。把c#的转义想成%就明白了@“\."就是"\.“这个普通的字符串，只不过在正则表达式来看，它有了特殊的含义@”\d“或者”\\d“。

-》\d：代表一个数字，等同于[0-9]

-》\D：代表非数字，等同于[^0-9]

-》\s:代表换行符、Tab制表符等空白字符（一般我们用[\s\S]来匹配任意字符串）

-》\S:代表非空白字符

-》\w:匹配字母或数字或下划线或汉字，即能组成单词的字符。

-》\W:非\w，等同于[^\W]

d:digital;s:space;w:word。大写就是”非“

简单正则表达式的练习

　　1.匹配正确的邮政编码 ^\d{6}$

　　2.判断是是不是身份证号码（15位数字或18位数字后面可能有X）^(\d{15}|\d{18}[xX]?)$ 或者^(\d{15}|\d{17}[dxX])$

　　3.匹配国内电话号

　　　　-》三位或四位区号-八位或七位电话号码 ^((\d{3}|\d{4})-(\d{8}|\d{7}))$

　　　　-》11位数字的手机号码 ^\d{11}$（不严格）

　　　　-》服务电话10086、10010、95599、95588等 ^((100|955)\d{2})$(不严格)

.Net的正则表达式

♦正则表达式在.Net中就是用字符串表示，这个字符串格式比较特殊，无论多么特殊，在c#语言看来都是普通的字符串，具体什么含义由Regex类内部进行分析。

♦如何匹配大于10小于20的字符串^[1][1-9]$（正则表达式是对字符串的操作）

♦正则表达式（Regular Expression）的主要类：Regex

♦常用的四种情况：（C#语法）

-》判断是否匹配Regex.IsMatch(”字符串"，"正则表达式“)

-》字符串提取：Regex.Match(”字符串","要提取的字符串的正则表达式")//只能提取一个（提取一次）

-》字符串提取（循环提取所有）Regex.Matchs()//可以提取所有匹配的字符串

-》字符串替换Regex.Replace("字符串"，“正则”，“替换内容”)

   string str = "fjdjfdfd fj123jdkfjdjfdjf45dfjkdjfkdj1233";
            Match m=Regex.Match(str,@"\d+");//返回第一个匹配的字符串
            if (m.Success)
            {
                Console.WriteLine("匹配到的字符串为{0}",m.Value);
                Console.WriteLine("匹配的字符串的起始位置是{0}",m.Index);
                Console.WriteLine("匹配到的字符串长度为{0}", m.Length);
            }
            MatchCollection mc=Regex.Matches(str,@"\d+");//匹配所有的字符串
            Console.WriteLine("==================");
            //用for循环遍历
            for (int i = 0; i < mc.Count; i++)
            {
                Match m1 = mc[i];
                Console.WriteLine("匹配到的字符串为{0}", m1.Value);
                Console.WriteLine("匹配的字符串的位置是{0}", m1.Index);
                Console.WriteLine("匹配到的字符串长度为{0}", m1.Length);
                Console.WriteLine();
            }
            Console.WriteLine("===================");
            //foreach遍历
            foreach(Match item in mc){
                Console.WriteLine(item.ToString());
            }
            Console.ReadKey();

View Code

难点：利用圆括号对匹配的结果进行分组

（案例，提取文本文件里特定格式的字符串）

        //读取html文本<table style="width: 100%; height: 488px;">
        //<tr>
        //    <td>
        //        <img alt="" src="hotgirls/00_00.jpg" /></td>
        //    <td>
        //        <img alt="" src="hotgirls/00_01.jpg" /></td>
        //    <td>.........  里的图片路径
            string html = System.IO.File.ReadAllText("美女们.htm",Encoding.Default);
            string regex = "src=\"(.+)\"";//正则表达式中圆括号有分组的功能，从左往右数圆括号，一次为Groups[1]、Groups[2]、Groups[3]......
            MatchCollection mc=Regex.Matches(html, regex);
            foreach (Match m in mc)
            {
                Console.WriteLine(m.Groups[1]);
            }
            Console.ReadKey();

再如例子

          string str = "012345";
                                 //   12  3    4    5
            string regex = @"((\d(\d))(\d))(\d)";
            Match m = Regex.Match(str, regex);
            Console.WriteLine(m.Value);//结果为0123
            Console.WriteLine("第1组为:"+m.Groups[1]);//结果为0123
            Console.WriteLine("第2组为:" + m.Groups[2]);//结果为012
            Console.WriteLine("第3组为:" + m.Groups[3]);//结果为01
            Console.WriteLine("第4组为:" + m.Groups[4]);//结果1
            Console.WriteLine("第5组为:" + m.Groups[5]);//结果为0
            Console.ReadKey();

上述代码中，利用了正则表达式圆括号分组功能，直接将匹配到的字符串进行分组以提取我们自己所需要的内容。

所以，我们可以尝试用正则匹配一个文件的全路径的文件名和后缀名

           string file = @"C:\123\4565\789\abcd.mp3";
            string regex = @"\\([^\\]+)(\.[^\\]+)$";
            MatchCollection m = Regex.Matches(file, regex);
            foreach (Match item in m)
            {
                Console.WriteLine(item.Value);//匹配结果为abcd.mp3
                Console.WriteLine(item.Groups[1].Value);//匹配结果为abcd
                Console.WriteLine(item.Groups[2].Value);//匹配结果为.mp3
            }
            Console.ReadKey();

易错题目：

            string s=@"((\d)(\w))+";
            string r="1a2b3c";
            Match m = Regex.Match(r,s);
            MatchCollection mc   =Regex.Matches(r,s);
            Console.WriteLine(m.Groups[0]);//结果为1a2b3c
            Console.WriteLine(m.Groups[1]);//结果为3c，因为第一组（即第一个括号）是匹配一个数字和一个字符。本来最先匹配到的是1a,但后面陆续被2b,3c覆盖了所以最后结果为3c。好比一个变量第一次存储1a,第二次改为存储2b,第三次为3c
            Console.WriteLine(m.Groups[2]);//结果为3
            Console.WriteLine(m.Groups[3]);//结果为c
            Console.ReadKey();
        }

若上述易错题中，将((\d)(\w)+),那么匹配的第一组就是1a2b3c,因为第一组（第一个括号内）匹配的表达式为为一个或者多个\d\w

匹配IP地址，4段用.分割的最多三位数字。192.168.54.77，假设333.3333.3.33也是正确的 ^(\d{1,3}(\.\d{1,3}){3})$

　　说明：以上匹配IP地址的正则表达式其实严格意义上说是不正确的。IP地址的每个节点其实都是0-255的数字

　　严谨的IP：^(25[0-5]|2[0-4][0-9]|[0-1]{1}[0-9]{2}|[1-9]{1}[0-9]{1}|[1-9])\.(25[0-5]|2[0-4][0-9]|[0-1]{1}[0-9]{2}|[1-9]{1}[0-9]{1}|[1-9]|0)\.(25[0-5]|2[0-4][0-9]|[0-1]{1}[0-9]{2}|[1-9]{1}[0-9]{1}|[1-9]|0)\.(25[0-5]|2[0-4][0-9]|[0-1]{1}[0-9]{2}|[1-9]{1}[0-9]{1}|[0-9])$

　　6.匹配Url（比如：http://www.test.com/a.htm、ftp://127.0.0.1/1.txt）

　　　说明：url是uniform resource locator

　　　组成：//地址/目录?参数1=参数值&参数1=参数值....

　　　简单解释：协议http（hyper text translate protocal）传输协议网站；协议 ftp(file translate protocal ) 下载；

　　　　　　　　端口：入口

　　匹配url的正则表达式：^\W+://.+$

  string regex =  @"^(https?|ftp)://([^:]+?)(:\d+)?(/[^\?]+?(\?\w+=\w+(&\w+=\w+)*)?)?$";
           // regex =   @"(.+?)://(.+?)(:\d+)?(/.+?)\?(.+)";//也可以
            string url1 = @"http://www.123.com:8081/1.html?k=1&y=2";
            string url2 = @"http://www.123.com/yangzhongke?wd=1";
            Console.WriteLine(Regex.IsMatch(url1,regex));//结果为true
            Console.WriteLine(Regex.IsMatch(url2,regex));//结果为true
            Console.ReadKey();

正则表达式的贪婪模式（难点）

//贪婪模式：从左往右递减，正则表达式只有两个权级，一个是尽可能匹配，一个尽可能不匹配
            string  str="12345";
            string regex=@"(\d+)(\d+)(\d+)";
            Match mc=Regex.Match(str,regex);
            Console.WriteLine(@"第一个\d+匹配到的为："+mc.Groups[1]);//结果匹配为123
            Console.WriteLine(@"第二个\d+匹配到的为："+mc.Groups[2]);//结果匹配为4
            Console.WriteLine(@"第三个\d+匹配到的为："+mc.Groups[3]);//结果匹配为5
            Console.WriteLine("==========================");

            string regex1 = @"(\d*?)(\d*)(\d+)";//问号表示取消贪婪模式
            Match mc1 = Regex.Match(str, regex1);
            Console.WriteLine(@"第一个\d+匹配到的为：" + mc1.Groups[1]);//结果为不匹配
            Console.WriteLine(@"第二个\d+匹配到的为：" + mc1.Groups[2]);//结果匹配为1234
            Console.WriteLine(@"第三个\d+匹配到的为：" + mc1.Groups[3]);//结果匹配为5
            Console.ReadKey();

那么，接下来我们可以尝试用正则表达式来实现Path类的几个静态方法：GetDirectoryName()、GetFileName()、GetExtension()、GetFileNameWitoutExtension()

            string file = @"C:\123\4565\789\abcd.mp3";       
            string regex = @"((.:)\\.+\\)((.+)(\..+))";
            Match mc = Regex.Match(file, regex);
            Console.WriteLine("匹配的原始数据为：" + mc.Value);
            Console.WriteLine("文件所在的磁盘为：" + mc.Groups[2]);
            Console.WriteLine("文件的全路径为：" + mc.Groups[1]);
            Console.WriteLine("文件的文件名为：" + mc.Groups[3]);
            Console.WriteLine("文件的后缀名为：" + mc.Groups[5]);
            Console.WriteLine("文件的去后缀名的文件名为：" + mc.Groups[4]);
                    // @"((.:)\\.+\\)((.+)(\..+))";
            Console.WriteLine("===============");

            string file1= @"C:\abcd.mp3";
            regex = @"((.:)\\(.+\\)?)((.+)(\..+))";
            Match mc1 = Regex.Match(file1,regex);
            Console.WriteLine("匹配的原始数据为：" + mc1.Value);
            Console.WriteLine("文件所在的磁盘为：" + mc1.Groups[2]);
            Console.WriteLine("文件的全路径为：" + mc1.Groups[1]);
            Console.WriteLine("文件的文件名为：" + mc1.Groups[4]);
            Console.WriteLine("文件的后缀名为：" + mc1.Groups[6]);
            Console.WriteLine("文件的去后缀名的文件名为：" + mc1.Groups[5]);
            Console.ReadKey();

案例讲解

1.练习从网站上下载图片

搭建一个服务器（运行CassiniDev.exe)，将我们计算机硬盘里存储的html文件的物理路径复制到CasiniDev PysicalPath下面的文本框内，点击start，即可以生成一个可访问的网址

步骤：

（1）运行CassiniDev.exe

（2）将default.htm所在的物理路径放入CassiniDev 地下的PysicalPath下的文本框内

（3）点击start

代码：

   　　　　　WebClient wc =new WebClient();//用来从网站上下载资源的类
            string html = wc.DownloadString("http://localhost:8080/default.htm");
            string r= @"<img alt="""" src=""(.+)"" />";
               // r = @"<img.+?src=""(.+?)""";
            MatchCollection mc = Regex.Matches(html, r);
            foreach (Match item in mc)
            {
                Console.WriteLine(item.Groups[1]);
                string path = "http://localhost:8080/" + item.Groups[1];
                //下载使用WebClient的DownLoadFile(网上路径,本地路径)；
                string fileName =@"D:\"+Regex.Match(item.Groups[1].Value, @"/(.+?)$").Groups[1].Value;
                wc.DownloadFile(path,fileName );
            }
            Console.ReadKey();

2.从网页上提取Email

            WebClient wc = new WebClient();
            wc.Encoding = Encoding.UTF8;//因为该html文件的charset=UTF-8;
            string htmlText = wc.DownloadString("http://localhost:8080/大家留下email交友吧_email_天涯社区.htm");
            string regex = @"[\da-zA-Z\.\-_]+@\w+\.[a-zA-Z]+";
            MatchCollection mc = Regex.Matches(htmlText, regex);
            foreach (Match item in mc)
            {
                Console.WriteLine(item.Value);
                //System.IO.File.WriteAllText(@"E:\上课\第12天\课堂代码\下载Email\bin\Debug\结果.txt",item.Value);
            }
            Console.ReadKey();

3.从招聘网页上提取岗位名称

           WebClient wc = new WebClient();
            string htmltxt = wc.DownloadString("http://localhost:8080/【上海,IT-管理,计算机软件招聘，求职】-前程无忧.htm");
            string regex = @"<a href=""http://search.51job.com/job/\d+,c.html"" onclick=""zzSearch.acStatRecJob\( 1 \);"" class=""jobname"" target=""_blank"">(.+)</a>";
            MatchCollection mc = Regex.Matches(htmltxt,regex);
            foreach( Match item in mc)
            {
                Console.WriteLine(item.Groups[1]);
            }
            Console.ReadKey();

正则表达式替换的简单说明

说明：Regex.Replace(string 需要操作的字符串,string 需要替换的字符串，string替换为的字符串)跟string <string>.Replace()相似。正则表达式相对功能更强大

代码：

//将 "2013年8月9日"替换为“2013-8-9”
            //解法一
            string str = "2013年8月9日";
            str = Regex.Replace(str, "年|月", "-");
            str = Regex.Replace(str, "日", "");
            Console.WriteLine(str);
            //解法二
            string str1 = "2013年9月9日";
            //正则表达式中，凡是组里面的数组，都可以用"$组号"进行引用
            str1 = Regex.Replace(str1,@"(\d+)年(\d+)月(\d+)日","$1-$2-$3");
            Console.WriteLine(str1);
            //“$组号”引用匹配组的再举例
            string str2=Regex.Replace("123",@"\d","$0$0");
            Console.WriteLine(str2);
            Console.ReadKey();

匹配替换案例：

1.“压缩”文件（简单压缩）

        //要缩文件，将js文本中的空格及注释都去掉。
            string txt = System.IO.File.ReadAllText(@"E:\上课\第12天\课堂代码\正则表达式的替换\bin\Debug\jkuery_20131031.js");
            txt = Regex.Replace(txt, @"//.+", "");
            txt = Regex.Replace(txt,@"\s+","");
            System.IO.File.WriteAllText(@"E:\上课\第12天\课堂代码\正则表达式的替换\bin\Debug\结果.js",txt);
            //我们还可以分析词法，将所有变量名都替换掉

2.将网址文本改为链接网址

　　　　　　　string text = System.IO.File.ReadAllText("网址大全.txt", Encoding.Default);
            string regex1 = @".+";
            text = Regex.Replace(text, regex1, "<a href=\"$0\">$0</a>");//直接加链接
            System.IO.File.WriteAllText(@"E:\上课\第12天\课堂代码\课堂练习\bin\Debug\结果.txt1", text);

            string regex = @"(https://)?(.+)";
            text=Regex.Replace(text,regex,"<a href=\"http://$2\">$2</a>");//让所有链接前都有一个http://
            System.IO.File.WriteAllText(@"E:\上课\第12天\课堂代码\课堂练习\bin\Debug\结果.txt", text);

3.给文件名加后一个缀

  　　　　　　Console.WriteLine("请输入一个文件名");
            string str = Console.ReadLine();
            str=Regex.Replace(str,@"(.+)\.(.+)","$1_mim.$2");
            Console.WriteLine(str);
            Console.ReadKey();

posted @ 2014-02-03 12:35 我叫小菜阅读(506) 评论(0) 收藏举报

刷新页面返回顶部

我叫小菜

正则表达式

公告