正则表达式入门

---恢复内容开始---

最简单的单独匹配一个单词，如匹配blue.需要使用\b.它是元字符，代表着单词的开头或者结尾.只匹配一个位置.匹配单词blue.\bblue\b.

一些元字符

\b匹配一个位置
.匹配除换行以为任意字符
*表示重复零次或更多次
\d匹配一个数字
\s匹配任意的空白符，如空格，制表符，换行符
\w匹配数字，字母，汉子，还有下划线
^匹配字符串的开始，$匹配字符串的结尾

举例

\ba\w*\b匹配以a开头的单词(有可能是abc，a正则，a_g_)
\d+匹配一个或者更多连续的数字
\b\w{6}\b匹配刚好6个单词的单词
^\d{5，12}$匹配5到12位数字

重复的几种表示方法

*重复零或者任意更多次
+重复一次或更多次
?零或者一次
{n}重复n次
{n，}n或者更多次
{n，m}n到m次

方括号的使用[]

[aeiou]匹配任何一个元音字母
[.?!]匹配其中一个标点符号
[0-9]匹配一个数字
[a-z 0-9 A-Z]

反义

\W匹配任意非字母，非数字，非汉子，非下划线的字符
\S匹配除了空白符的字符
\D匹配任意非数字的字符
\B匹配不是单词开头或结尾的位置
在方括号里面使用^实现反义，[^a]匹配除了a以外的任意字符

分枝条件| 正则表达式里的替换指的是有几种规则，如果满足了其中一种规则都应该当成匹配

0\d{2}-\d{8}|0\d{3}-\d{7}匹配两种以连字符分割的电话号码
\d{5}-\d{4}|\d{5}匹配美国的邮编，5位数字或者用连字号间隔的9位数字。

之所以给出这个例子，是要注意，使用分枝条件时，顺序很重要。从左到右测试条件，一旦满足了某个条件，就不会去管后面的正则了。如果换成\d{5}|\d{5}-\d{4},用这个去匹配时，只能匹配到5位数字，或者9位数字的前五位

后向引用

还记得前面分组用的小括号吗？后向引用就是给小括号编上号，从左到右依次为1,2...

\b(\w+)\b\s+\1\b这里的\1匹配前面的单词
可以给子表达式自定义名字，使用？<name>例如？<word>\w+调用的时候使用\k<word>

零宽断言

(?=exp) //匹配exp前面的位置
- \b\w+(?=ing\b)匹配以ing结尾的单词前面的部分
(?<=exp) //匹配exp后面的位置
- (?<=\bre)\w+\b //匹配以re开头的单词后面的部分
(?!exp) //匹配后面跟的不是exp的位置
- \d{3}(?!\d) //匹配三位数字，而且三位数字后面不能是数字
(?<!exp) //匹配前面跟的不是exp的位置
- (?<![a-z])\d{7}匹配前面不是小写字母的七位数字
假如想要在一串很长的数字中每三位数字间加一个逗号，可以这样来匹配位置((?=\d)\d{3})*\b
匹配以空白符间隔的数字(?<=\s)\d(?=\s)

贪婪与懒惰

默认贪婪匹配，如a.*b用在aababb上的话，会匹配整个字符串
想要实现懒惰匹配，需要加上问号a.*?b这样只会匹配aab
*? 重复任意次，但尽可能少重复
+? 重复1次或更多次，但尽可能少重复
?? 重复0次或1次，但尽可能少重复
{n,m}? 重复n到m次，但尽可能少重复
{n,}? 重复n次以上，但尽可能少重复

---恢复内容结束---

最简单的单独匹配一个单词，如匹配blue.需要使用\b.它是元字符，代表着单词的开头或者结尾.只匹配一个位置.匹配单词blue.\bblue\b.

一些元字符

\b匹配一个位置
.匹配除换行以为任意字符
*表示重复零次或更多次
\d匹配一个数字
\s匹配任意的空白符，如空格，制表符，换行符
\w匹配数字，字母，汉子，还有下划线
^匹配字符串的开始，$匹配字符串的结尾

举例

\ba\w*\b匹配以a开头的单词(有可能是abc，a正则，a_g_)
\d+匹配一个或者更多连续的数字
\b\w{6}\b匹配刚好6个单词的单词
^\d{5，12}$匹配5到12位数字

重复的几种表示方法

*重复零或者任意更多次
+重复一次或更多次
?零或者一次
{n}重复n次
{n，}n或者更多次
{n，m}n到m次

方括号的使用[]

[aeiou]匹配任何一个元音字母
[.?!]匹配其中一个标点符号
[0-9]匹配一个数字
[a-z 0-9 A-Z]

反义

\W匹配任意非字母，非数字，非汉子，非下划线的字符
\S匹配除了空白符的字符
\D匹配任意非数字的字符
\B匹配不是单词开头或结尾的位置
在方括号里面使用^实现反义，[^a]匹配除了a以外的任意字符

分枝条件| 正则表达式里的替换指的是有几种规则，如果满足了其中一种规则都应该当成匹配

0\d{2}-\d{8}|0\d{3}-\d{7}匹配两种以连字符分割的电话号码
\d{5}-\d{4}|\d{5}匹配美国的邮编，5位数字或者用连字号间隔的9位数字。

之所以给出这个例子，是要注意，使用分枝条件时，顺序很重要。从左到右测试条件，一旦满足了某个条件，就不会去管后面的正则了。如果换成\d{5}|\d{5}-\d{4},用这个去匹配时，只能匹配到5位数字，或者9位数字的前五位

后向引用

还记得前面分组用的小括号吗？后向引用就是给小括号编上号，从左到右依次为1,2...

\b(\w+)\b\s+\1\b这里的\1匹配前面的单词
可以给子表达式自定义名字，使用？<name>例如？<word>\w+调用的时候使用\k<word>

零宽断言

(?=exp) //匹配exp前面的位置
- \b\w+(?=ing\b)匹配以ing结尾的单词前面的部分
(?<=exp) //匹配exp后面的位置
- (?<=\bre)\w+\b //匹配以re开头的单词后面的部分
(?!exp) //匹配后面跟的不是exp的位置
- \d{3}(?!\d) //匹配三位数字，而且三位数字后面不能是数字
(?<!exp) //匹配前面跟的不是exp的位置
- (?<![a-z])\d{7}匹配前面不是小写字母的七位数字
假如想要在一串很长的数字中每三位数字间加一个逗号，可以这样来匹配位置((?=\d)\d{3})*\b
匹配以空白符间隔的数字(?<=\s)\d(?=\s)

贪婪与懒惰

默认贪婪匹配，如a.*b用在aababb上的话，会匹配整个字符串
想要实现懒惰匹配，需要加上问号a.*?b这样只会匹配aab
*? 重复任意次，但尽可能少重复
+? 重复1次或更多次，但尽可能少重复
?? 重复0次或1次，但尽可能少重复
{n,m}? 重复n到m次，但尽可能少重复
{n,}? 重复n次以上，但尽可能少重复

posted @ 2017-03-28 16:19 Blue-Beginner 阅读(417) 评论(0) 编辑收藏举报

刷新页面返回顶部