正则表达式(overall)

令自己想爱但深爱不上的正则表达式~

阅读网站：http://c.biancheng.net/cpp/html/1402.html

为什么使用正则表达式？

①防止SQL注入：尤其对于网站，安全是至关重要的，写好正则表达式，能够验证输入信息，保证输入数据的合法性，不至于不法人士侵入数据库破坏网站；
②采集：从互联网上按照某种规则搜索想要的数据，对于分析复杂的HTML标签，正则表达式是一件利器；
③验证数据：无论对于软件还是网站，用户输入的数据都需要验证后再提交，以得到安全和想要的数据。

1.\b:

正则表达式规定的一个特殊代码（某些人叫它元字符，metacharacter），代表着单词的开头或结尾，也就是单词的分界处。虽然通常英文的单词是由空格，标点符号或者换行来分隔的，但是\b并不匹配这些单词分隔字符中的任何一个，它只匹配一个位置。

精确地查找hi这个单词的话，我们应该使用\bhi\b。

2..

元字符，匹配除了换行符以外的任意字符。

3.*

元字符，不过它代表的不是字符，也不是位置，而是数量——它指定*前边的内容可以连续重复使用任意次以使整个表达式得到匹配(重复零次或更多次)。

所以当.*连在一起就意味着任意数量的不包含换行的字符。

4.\d

元字符，匹配一位数字(0，或1，或2，或……)。

5.-

不是元字符，只匹配它本身——连字符(或者减号，或者中横线，或者随你怎么称呼它)。

6.\s

匹配任意的空白符，包括空格，制表符(Tab)，换行符，中文全角空格等。

7.\w

匹配字母或数字或下划线或汉字等。

8.^

匹配字符串的开始

9.$

匹配字符串的结束

10.+

重复一次或更多次

11.?

重复零次或一次

12.{n}

重复n次

13.{n,}

重复n次或更多次

14.{n,m}

重复n到m次

分枝条件

正则表达式里的分枝条件指的是有几种规则，如果满足其中任意一种规则都应该当成匹配，具体方法是用|把不同的规则分隔开。

反义(大写)：

零宽断言:

用于查找在某些内容(但并不包括这些内容)之前或之后的东西，也就是说它们像\b,^,$那样用于指定一个位置，这个位置应该满足一定的条件(即断言);

(?=exp)也叫零宽度正预测先行断言，它断言自身出现的位置的后面能匹配表达式exp。比如\b\w+(?=ing\b)，匹配以ing结尾的单词的前面部分(除了ing以外的部分)，如查找I'm singing while you're dancing.时，它会匹配sing和danc。
(?<=exp)也叫零宽度正回顾后发断言，它断言自身出现的位置的前面能匹配表达式exp。比如(?<=\bre)\w+\b会匹配以re开头的单词的后半部分(除了re以外的部分)，例如在查找reading a book时，它匹配ading。
假如你想要给一个很长的数字中每三位间加一个逗号(当然是从右边加起了)，你可以这样查找需要在前面和里面添加逗号的部分：((?<=\d)\d{3})*\b，用它对1234567890进行查找时结果是234567890。
(?<=\s)\d+(?=\s)匹配以空白符间隔的数字(再次强调，不包括这些空白符)

懒惰限定符：

正则表达式中包含能接受重复的限定符时，通常的行为是（在使整个表达式能得到匹配的前提下）匹配尽可能多的字符。考虑这个表达式：

a.*b，它将会匹配最长的以a开始，以b结束的字符串。如果用它来搜索aabab的话，它会匹配整个字符串aabab。这被称为贪婪匹配；

有时，我们更需要懒惰匹配，也就是匹配尽可能少的字符。前面给出的限定符都可以被转化为懒惰匹配模式，只要在它后面加上一个问号?。

这样.*?就意味着匹配任意数量的重复，但是在能使整个匹配成功的前提下使用最少的重复。

10.总览表：

写在最后的：

果然，正则表达式会是自己一直的“痛”，不过终再努力一点，加油~

posted @ 2017-08-24 14:41 郑叶叶阅读(617) 评论(2) 编辑收藏举报

刷新页面返回顶部

郑叶叶

无旁骛才能有所专,有所专才能有所进