正则表达式学习

工具
- regexr：http://regexr.com/
- Regex Tester：http://deerchao.net/tools/regex_tester/index.htm
- regexbuddy：https://www.regexbuddy.com/
- Javascript正则表达式在线测试工具：http://www.regexpal.com/
- regex101：https://www.regex101.com/
- 正则图示：https://regexper.com
入门
- Windows/Dos下用于文件查找的通配符(wildcard)，也就是*和?
- \b是正则表达式规定的一个特殊代码（好吧，某些人叫它元字符，metacharacter），代表着单词的开头或结尾，也就是单词的分界处
  - \bhi\b 精确地查找hi这个单词
  - \bhi\b.*\bLucy\b 先是一个单词hi,然后是任意个任意字符(但不能是换行)，最后是Lucy这个单词
  - 0\d\d-\d\d\d\d\d\d\d\d 以0开头，然后是两个数字，然后是一个连字号“-”，最后是8个数字
  - 0\d{2}-\d{8} \d后面的{2}({8})的意思是前面\d必须连续重复匹配2次(8次)
元字符
- . 匹配除换行符以外的任意字符
- \w 匹配字母或数字或下划线或汉字
- \s 匹配任意的空白符
- \d 匹配数字
- \D 匹配非数字
- \b 匹配单词的开始或结束
- ^ 匹配字符串的开始
- $ 匹配字符串的结束
- \n 换行符
- \r 回车
POSIX字符
- [:alnum:]
- [:alpha:]
- [:blank:]
- [:digit:]
- [:lower:]
- [:upper:]
- [:punct:]
- [:space:]
重复
- * 重复零次或更多次
- + 重复一次或更多次
- ? 重复零次或一次
- {n} 重复n次
- {n,} 重复n次或更多次
- {n,m} 重复n到m次
字符转义
- unibetter\.com匹配unibetter.com
- C:\\Windows匹配C:\Windows
字符类
- [aeiou]就匹配任何一个英文元音字母
- [.?!]匹配标点符号(.或?或!)
- [0-9]代表的含意与\d就是完全一致的：一位数字
- [a-z0-9A-Z_]也完全等同于\w（如果只考虑英文的话）
- \(?0\d{2}[) -]?\d{8}。这个表达式可以匹配几种格式的电话号码，像(010)88886666，或022-22334455，或02912345678，“(”和“)”也是元字符，后面的分组节里会提到，所以在这里需要使用转义。
分枝条件（或）
分组
- 用小括号来指定子表达式(也叫做分组)，然后你就可以指定这个子表达式的重复次数了
- 正则表达式里的分枝条件指的是有几种规则，如果满足其中任意一种规则都应该当成匹配，具体方法是用|把不同的规则分隔开
- (\d{1,3}\.){3}\d{1,3}是一个简单的IP地址匹配表达式。要理解这个表达式，请按下列顺序分析它：\d{1,3}匹配1到3位的数字，(\d{1,3}\.){3}匹配三位数字加上一个英文句号(这个整体也就是这个分组)重复3次，最后再加上一个一到三位的数字(\d{1,3})
- IP地址匹配表达式2：((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)
反义
- \W 匹配任意不是字母，数字，下划线，汉字的字符
- \S 匹配任意不是空白符的字符
- \D 匹配任意非数字的字符
- \B 匹配不是单词开头或结束的位置
- [^x] 匹配除了x以外的任意字符
- [^aeiou] 匹配除了aeiou这几个字母以外的任意字符
后向引用
- 后向引用用于重复搜索前面某个分组匹配的文本。例如，\1代表分组1匹配的文本。
- \b(\w+)\b\s+\1\b可以用来匹配重复的单词，像go go, 或者kitty kitty
- (exp) 匹配exp,并捕获文本到自动命名的组里
- (?<name>exp) 匹配exp,并捕获文本到名称为name的组里，也可以写成(?'name'exp)
- (?:exp) 匹配exp,不捕获匹配的文本，也不给此分组分配组号
- 零宽断言 (?=exp) 匹配exp前面的位置
- (?<=exp) 匹配exp后面的位置
- (?!exp) 匹配后面跟的不是exp的位置
- (?<!exp) 匹配前面不是exp的位置
- 注释 (?#comment) 这种类型的分组不对正则表达式的处理产生任何影响，用于提供注释让人阅读
零宽断言
- 像\b,^,$那样用于指定一个位置，这个位置应该满足一定的条件(即断言)，因此它们也被称为零宽断言
- \b\w+(?=ing\b)，匹配以ing结尾的单词的前面部分(除了ing以外的部分)，如查找I'm singing while you're dancing.时，它会匹配sing和danc。
- (?<=\bre)\w+\b会匹配以re开头的单词的后半部分(除了re以外的部分)，例如在查找reading a book时，它匹配ading。
负向零宽断言
- 零宽度负预测先行断言(?!exp)，断言此位置的后面不能匹配表达式exp。例如：\d{3}(?!\d)匹配三位数字，而且这三位数字的后面不能是数字；\b((?!abc)\w)+\b匹配不包含连续字符串abc的单词。
- 我们可以用(?<!exp),零宽度负回顾后发断言来断言此位置的前面不能匹配表达式exp：(?<![a-z])\d{7}匹配前面不是小写字母的七位数字。
贪婪与懒惰
- *? 重复任意次，但尽可能少重复
- +? 重复1次或更多次，但尽可能少重复
- ?? 重复0次或1次，但尽可能少重复
- {n,m}? 重复n到m次，但尽可能少重复
- {n,}? 重复n次以上，但尽可能少重复
- 例:a.*?b匹配最短的，以a开始，以b结束的字符串。如果把它应用于aabab的话，它会匹配aab（第一到第三个字符）和ab（第四到第五个字符）。

posted @ 2018-08-29 14:53 俊学之道阅读(155) 评论(0) 收藏举报

刷新页面返回顶部

俊学之道

正则表达式学习

公告