正则表达式学习
正则表达式学习
- 工具
- regexr:http://regexr.com/
- Regex Tester:http://deerchao.net/tools/regex_tester/index.htm
- regexbuddy:https://www.regexbuddy.com/
- Javascript正则表达式在线测试工具:http://www.regexpal.com/
- regex101:https://www.regex101.com/
- 正则图示:https://regexper.com
- 入门
- Windows/Dos下用于文件查找的通配符(wildcard),也就是*和?
- \b是正则表达式规定的一个特殊代码(好吧,某些人叫它元字符,metacharacter),代表着单词的开头或结尾,也就是单词的分界处
- \bhi\b 精确地查找hi这个单词
- \bhi\b.*\bLucy\b 先是一个单词hi,然后是任意个任意字符(但不能是换行),最后是Lucy这个单词
- 0\d\d-\d\d\d\d\d\d\d\d 以0开头,然后是两个数字,然后是一个连字号“-”,最后是8个数字
- 0\d{2}-\d{8} \d后面的{2}({8})的意思是前面\d必须连续重复匹配2次(8次)
- 元字符
- . 匹配除换行符以外的任意字符
- \w 匹配字母或数字或下划线或汉字
- \s 匹配任意的空白符
- \d 匹配数字
- \D 匹配非数字
- \b 匹配单词的开始或结束
- ^ 匹配字符串的开始
- $ 匹配字符串的结束
- \n 换行符
- \r 回车
- POSIX字符
- [:alnum:]
- [:alpha:]
- [:blank:]
- [:digit:]
- [:lower:]
- [:upper:]
- [:punct:]
- [:space:]
- 重复
- * 重复零次或更多次
- + 重复一次或更多次
- ? 重复零次或一次
- {n} 重复n次
- {n,} 重复n次或更多次
- {n,m} 重复n到m次
- 字符转义
- unibetter\.com匹配unibetter.com
- C:\\Windows匹配C:\Windows
- 字符类
- [aeiou]就匹配任何一个英文元音字母
- [.?!]匹配标点符号(.或?或!)
- [0-9]代表的含意与\d就是完全一致的:一位数字
- [a-z0-9A-Z_]也完全等同于\w(如果只考虑英文的话)
- \(?0\d{2}[) -]?\d{8}。这个表达式可以匹配几种格式的电话号码,像(010)88886666,或022-22334455,或02912345678,“(”和“)”也是元字符,后面的分组节里会提到,所以在这里需要使用转义。
- 分枝条件(或)
- 分组
- 用小括号来指定子表达式(也叫做分组),然后你就可以指定这个子表达式的重复次数了
- 正则表达式里的分枝条件指的是有几种规则,如果满足其中任意一种规则都应该当成匹配,具体方法是用|把不同的规则分隔开
- (\d{1,3}\.){3}\d{1,3}是一个简单的IP地址匹配表达式。要理解这个表达式,请按下列顺序分析它:\d{1,3}匹配1到3位的数字,(\d{1,3}\.){3}匹配三位数字加上一个英文句号(这个整体也就是这个分组)重复3次,最后再加上一个一到三位的数字(\d{1,3})
- IP地址匹配表达式2:((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)
- 反义
- \W 匹配任意不是字母,数字,下划线,汉字的字符
- \S 匹配任意不是空白符的字符
- \D 匹配任意非数字的字符
- \B 匹配不是单词开头或结束的位置
- [^x] 匹配除了x以外的任意字符
- [^aeiou] 匹配除了aeiou这几个字母以外的任意字符
- 后向引用
- 后向引用用于重复搜索前面某个分组匹配的文本。例如,\1代表分组1匹配的文本。
- \b(\w+)\b\s+\1\b可以用来匹配重复的单词,像go go, 或者kitty kitty
- (exp) 匹配exp,并捕获文本到自动命名的组里
- (?<name>exp) 匹配exp,并捕获文本到名称为name的组里,也可以写成(?'name'exp)
- (?:exp) 匹配exp,不捕获匹配的文本,也不给此分组分配组号
- 零宽断言 (?=exp) 匹配exp前面的位置
- (?<=exp) 匹配exp后面的位置
- (?!exp) 匹配后面跟的不是exp的位置
- (?<!exp) 匹配前面不是exp的位置
- 注释 (?#comment) 这种类型的分组不对正则表达式的处理产生任何影响,用于提供注释让人阅读
- 零宽断言
- 像\b,^,$那样用于指定一个位置,这个位置应该满足一定的条件(即断言),因此它们也被称为零宽断言
- \b\w+(?=ing\b),匹配以ing结尾的单词的前面部分(除了ing以外的部分),如查找I'm singing while you're dancing.时,它会匹配sing和danc。
- (?<=\bre)\w+\b会匹配以re开头的单词的后半部分(除了re以外的部分),例如在查找reading a book时,它匹配ading。
- 负向零宽断言
- 零宽度负预测先行断言(?!exp),断言此位置的后面不能匹配表达式exp。例如:\d{3}(?!\d)匹配三位数字,而且这三位数字的后面不能是数字;\b((?!abc)\w)+\b匹配不包含连续字符串abc的单词。
- 我们可以用(?<!exp),零宽度负回顾后发断言来断言此位置的前面不能匹配表达式exp:(?<![a-z])\d{7}匹配前面不是小写字母的七位数字。
- 贪婪与懒惰
- *? 重复任意次,但尽可能少重复
- +? 重复1次或更多次,但尽可能少重复
- ?? 重复0次或1次,但尽可能少重复
- {n,m}? 重复n到m次,但尽可能少重复
- {n,}? 重复n次以上,但尽可能少重复
- 例:a.*?b匹配最短的,以a开始,以b结束的字符串。如果把它应用于aabab的话,它会匹配aab(第一到第三个字符)和ab(第四到第五个字符)。