正则表达式入门

---恢复内容开始---

最简单的单独匹配一个单词,如匹配blue.需要使用\b.它是元字符,代表着单词的开头或者结尾.只匹配一个位置.匹配单词blue.\bblue\b.
一些元字符
  • \b匹配一个位置
  • .匹配除换行以为任意字符
  • *表示重复零次或更多次
  • \d匹配一个数字
  • \s匹配任意的空白符,如空格,制表符,换行符
  • \w匹配数字,字母,汉子,还有下划线
  • ^匹配字符串的开始,$匹配字符串的结尾

举例
  • \ba\w*\b匹配以a开头的单词(有可能是abc,a正则,a_g_)
  • \d+匹配一个或者更多连续的数字
  • \b\w{6}\b匹配刚好6个单词的单词
  • ^\d{5,12}$匹配5到12位数字

重复的几种表示方法
  • *重复零或者任意更多次
  • +重复一次或更多次
  • ?零或者一次
  • {n}重复n次
  • {n,}n或者更多次
  • {n,m}n到m次

方括号的使用[]
  • [aeiou]匹配任何一个元音字母
  • [.?!]匹配其中一个标点符号
  • [0-9]匹配一个数字
  • [a-z 0-9 A-Z]

反义
  • \W匹配任意非字母,非数字,非汉子,非下划线的字符
  • \S匹配除了空白符的字符
  • \D匹配任意非数字的字符
  • \B匹配不是单词开头或结尾的位置
  • 在方括号里面使用^实现反义,[^a]匹配除了a以外的任意字符

分枝条件| 正则表达式里的替换指的是有几种规则,如果满足了其中一种规则都应该当成匹配
  • 0\d{2}-\d{8}|0\d{3}-\d{7}匹配两种以连字符分割的电话号码
  • \d{5}-\d{4}|\d{5}匹配美国的邮编,5位数字或者用连字号间隔的9位数字。
之所以给出这个例子,是要注意,使用分枝条件时,顺序很重要。从左到右测试条件,一旦满足了某个条件,就不会去管后面的正则了。如果换成\d{5}|\d{5}-\d{4},用这个去匹配时,只能匹配到5位数字,或者9位数字的前五位
后向引用

还记得前面分组用的小括号吗?后向引用就是给小括号编上号,从左到右依次为1,2...

  • \b(\w+)\b\s+\1\b这里的\1匹配前面的单词
  • 可以给子表达式自定义名字,使用?<name>例如?<word>\w+调用的时候使用\k<word>
零宽断言
贪婪与懒惰
  • 默认贪婪匹配,如a.*b用在aababb上的话,会匹配整个字符串
  • 想要实现懒惰匹配,需要加上问号a.*?b这样只会匹配aab
  • *? 重复任意次,但尽可能少重复
  • +? 重复1次或更多次,但尽可能少重复
  • ?? 重复0次或1次,但尽可能少重复
  • {n,m}? 重复n到m次,但尽可能少重复
  • {n,}? 重复n次以上,但尽可能少重复

---恢复内容结束---

最简单的单独匹配一个单词,如匹配blue.需要使用\b.它是元字符,代表着单词的开头或者结尾.只匹配一个位置.匹配单词blue.\bblue\b.
一些元字符
  • \b匹配一个位置
  • .匹配除换行以为任意字符
  • *表示重复零次或更多次
  • \d匹配一个数字
  • \s匹配任意的空白符,如空格,制表符,换行符
  • \w匹配数字,字母,汉子,还有下划线
  • ^匹配字符串的开始,$匹配字符串的结尾

举例
  • \ba\w*\b匹配以a开头的单词(有可能是abc,a正则,a_g_)
  • \d+匹配一个或者更多连续的数字
  • \b\w{6}\b匹配刚好6个单词的单词
  • ^\d{5,12}$匹配5到12位数字

重复的几种表示方法
  • *重复零或者任意更多次
  • +重复一次或更多次
  • ?零或者一次
  • {n}重复n次
  • {n,}n或者更多次
  • {n,m}n到m次

方括号的使用[]
  • [aeiou]匹配任何一个元音字母
  • [.?!]匹配其中一个标点符号
  • [0-9]匹配一个数字
  • [a-z 0-9 A-Z]

反义
  • \W匹配任意非字母,非数字,非汉子,非下划线的字符
  • \S匹配除了空白符的字符
  • \D匹配任意非数字的字符
  • \B匹配不是单词开头或结尾的位置
  • 在方括号里面使用^实现反义,[^a]匹配除了a以外的任意字符

分枝条件| 正则表达式里的替换指的是有几种规则,如果满足了其中一种规则都应该当成匹配
  • 0\d{2}-\d{8}|0\d{3}-\d{7}匹配两种以连字符分割的电话号码
  • \d{5}-\d{4}|\d{5}匹配美国的邮编,5位数字或者用连字号间隔的9位数字。
之所以给出这个例子,是要注意,使用分枝条件时,顺序很重要。从左到右测试条件,一旦满足了某个条件,就不会去管后面的正则了。如果换成\d{5}|\d{5}-\d{4},用这个去匹配时,只能匹配到5位数字,或者9位数字的前五位
后向引用

还记得前面分组用的小括号吗?后向引用就是给小括号编上号,从左到右依次为1,2...

  • \b(\w+)\b\s+\1\b这里的\1匹配前面的单词
  • 可以给子表达式自定义名字,使用?<name>例如?<word>\w+调用的时候使用\k<word>
零宽断言
贪婪与懒惰
  • 默认贪婪匹配,如a.*b用在aababb上的话,会匹配整个字符串
  • 想要实现懒惰匹配,需要加上问号a.*?b这样只会匹配aab
  • *? 重复任意次,但尽可能少重复
  • +? 重复1次或更多次,但尽可能少重复
  • ?? 重复0次或1次,但尽可能少重复
  • {n,m}? 重复n到m次,但尽可能少重复
  • {n,}? 重复n次以上,但尽可能少重复
posted @ 2017-03-28 16:19  Blue-Beginner  阅读(412)  评论(0编辑  收藏  举报