正则表达式入门
---恢复内容开始---
最简单的单独匹配一个单词,如匹配blue.需要使用\b.它是元字符,代表着单词的开头或者结尾.只匹配一个位置.匹配单词blue.\bblue\b.
一些元字符
- \b匹配一个位置
- .匹配除换行以为任意字符
- *表示重复零次或更多次
- \d匹配一个数字
- \s匹配任意的空白符,如空格,制表符,换行符
- \w匹配数字,字母,汉子,还有下划线
- ^匹配字符串的开始,$匹配字符串的结尾
举例
- \ba\w*\b匹配以a开头的单词(有可能是abc,a正则,a_g_)
- \d+匹配一个或者更多连续的数字
- \b\w{6}\b匹配刚好6个单词的单词
- ^\d{5,12}$匹配5到12位数字
重复的几种表示方法
- *重复零或者任意更多次
- +重复一次或更多次
- ?零或者一次
- {n}重复n次
- {n,}n或者更多次
- {n,m}n到m次
方括号的使用[]
- [aeiou]匹配任何一个元音字母
- [.?!]匹配其中一个标点符号
- [0-9]匹配一个数字
- [a-z 0-9 A-Z]
反义
- \W匹配任意非字母,非数字,非汉子,非下划线的字符
- \S匹配除了空白符的字符
- \D匹配任意非数字的字符
- \B匹配不是单词开头或结尾的位置
- 在方括号里面使用^实现反义,[^a]匹配除了a以外的任意字符
分枝条件| 正则表达式里的替换指的是有几种规则,如果满足了其中一种规则都应该当成匹配
- 0\d{2}-\d{8}|0\d{3}-\d{7}匹配两种以连字符分割的电话号码
- \d{5}-\d{4}|\d{5}匹配美国的邮编,5位数字或者用连字号间隔的9位数字。
之所以给出这个例子,是要注意,使用分枝条件时,顺序很重要。从左到右测试条件,一旦满足了某个条件,就不会去管后面的正则了。如果换成\d{5}|\d{5}-\d{4},用这个去匹配时,只能匹配到5位数字,或者9位数字的前五位
后向引用
还记得前面分组用的小括号吗?后向引用就是给小括号编上号,从左到右依次为1,2...
- \b(\w+)\b\s+\1\b这里的\1匹配前面的单词
- 可以给子表达式自定义名字,使用?<name>例如?<word>\w+调用的时候使用\k<word>
零宽断言
- (?=exp) //匹配exp前面的位置
- \b\w+(?=ing\b)匹配以ing结尾的单词前面的部分
- (?<=exp) //匹配exp后面的位置
- (?<=\bre)\w+\b //匹配以re开头的单词后面的部分
- (?!exp) //匹配后面跟的不是exp的位置
- \d{3}(?!\d) //匹配三位数字,而且三位数字后面不能是数字
- (?<!exp) //匹配前面跟的不是exp的位置
- (?<![a-z])\d{7}匹配前面不是小写字母的七位数字
- 假如想要在一串很长的数字中每三位数字间加一个逗号,可以这样来匹配位置((?=\d)\d{3})*\b
- 匹配以空白符间隔的数字(?<=\s)\d(?=\s)
贪婪与懒惰
- 默认贪婪匹配,如a.*b用在aababb上的话,会匹配整个字符串
- 想要实现懒惰匹配,需要加上问号a.*?b这样只会匹配aab
- *? 重复任意次,但尽可能少重复
- +? 重复1次或更多次,但尽可能少重复
- ?? 重复0次或1次,但尽可能少重复
- {n,m}? 重复n到m次,但尽可能少重复
- {n,}? 重复n次以上,但尽可能少重复
---恢复内容结束---
最简单的单独匹配一个单词,如匹配blue.需要使用\b.它是元字符,代表着单词的开头或者结尾.只匹配一个位置.匹配单词blue.\bblue\b.
一些元字符
- \b匹配一个位置
- .匹配除换行以为任意字符
- *表示重复零次或更多次
- \d匹配一个数字
- \s匹配任意的空白符,如空格,制表符,换行符
- \w匹配数字,字母,汉子,还有下划线
- ^匹配字符串的开始,$匹配字符串的结尾
举例
- \ba\w*\b匹配以a开头的单词(有可能是abc,a正则,a_g_)
- \d+匹配一个或者更多连续的数字
- \b\w{6}\b匹配刚好6个单词的单词
- ^\d{5,12}$匹配5到12位数字
重复的几种表示方法
- *重复零或者任意更多次
- +重复一次或更多次
- ?零或者一次
- {n}重复n次
- {n,}n或者更多次
- {n,m}n到m次
方括号的使用[]
- [aeiou]匹配任何一个元音字母
- [.?!]匹配其中一个标点符号
- [0-9]匹配一个数字
- [a-z 0-9 A-Z]
反义
- \W匹配任意非字母,非数字,非汉子,非下划线的字符
- \S匹配除了空白符的字符
- \D匹配任意非数字的字符
- \B匹配不是单词开头或结尾的位置
- 在方括号里面使用^实现反义,[^a]匹配除了a以外的任意字符
分枝条件| 正则表达式里的替换指的是有几种规则,如果满足了其中一种规则都应该当成匹配
- 0\d{2}-\d{8}|0\d{3}-\d{7}匹配两种以连字符分割的电话号码
- \d{5}-\d{4}|\d{5}匹配美国的邮编,5位数字或者用连字号间隔的9位数字。
之所以给出这个例子,是要注意,使用分枝条件时,顺序很重要。从左到右测试条件,一旦满足了某个条件,就不会去管后面的正则了。如果换成\d{5}|\d{5}-\d{4},用这个去匹配时,只能匹配到5位数字,或者9位数字的前五位
后向引用
还记得前面分组用的小括号吗?后向引用就是给小括号编上号,从左到右依次为1,2...
- \b(\w+)\b\s+\1\b这里的\1匹配前面的单词
- 可以给子表达式自定义名字,使用?<name>例如?<word>\w+调用的时候使用\k<word>
零宽断言
- (?=exp) //匹配exp前面的位置
- \b\w+(?=ing\b)匹配以ing结尾的单词前面的部分
- (?<=exp) //匹配exp后面的位置
- (?<=\bre)\w+\b //匹配以re开头的单词后面的部分
- (?!exp) //匹配后面跟的不是exp的位置
- \d{3}(?!\d) //匹配三位数字,而且三位数字后面不能是数字
- (?<!exp) //匹配前面跟的不是exp的位置
- (?<![a-z])\d{7}匹配前面不是小写字母的七位数字
- 假如想要在一串很长的数字中每三位数字间加一个逗号,可以这样来匹配位置((?=\d)\d{3})*\b
- 匹配以空白符间隔的数字(?<=\s)\d(?=\s)
贪婪与懒惰
- 默认贪婪匹配,如a.*b用在aababb上的话,会匹配整个字符串
- 想要实现懒惰匹配,需要加上问号a.*?b这样只会匹配aab
- *? 重复任意次,但尽可能少重复
- +? 重复1次或更多次,但尽可能少重复
- ?? 重复0次或1次,但尽可能少重复
- {n,m}? 重复n到m次,但尽可能少重复
- {n,}? 重复n次以上,但尽可能少重复