Java中的正则表达式
Java中的正则表达式 #
一、基础知识
1. 正则表达式语法
字符 | 描述 |
---|---|
\ | 将下一个字符标记为一个特殊字符、或一个原义字符、或一个 向后引用、或一个八进制转义符。例如,'n' 匹配字符 "n"。'\n' 匹配一个换行符。序列 '\' 匹配 "" 而 "." 则匹配 "."。 |
^ | 匹配输入字符串的开始位置。 |
$ | 匹配输入字符串的结束位置。 |
- |匹配前面的子表达式零次或多次。例如,zo* 能匹配 "z" 以及 "zoo"。* 等价于{0,}。
- |匹配前面的子表达式一次或多次。例如,'zo+' 能匹配 "zo" 以及 "zoo",但不能匹配 "z"。+ 等价于 {1,}。
? |匹配前面的子表达式零次或一次。例如,"do(es)?" 可以匹配 "do" 或 "does"。? 等价于 {0,1}。
{n} |n 是一个非负整数。匹配确定的 n 次。例如,'o{2}' 不能匹配 "Bob" 中的 'o',但是能匹配 "food" 中的两个 o。
{n,} |n 是一个非负整数。至少匹配n 次。例如,'o{2,}' 不能匹配 "Bob" 中的 'o',但能匹配 "foooood" 中的所有 o。'o{1,}' 等价于 'o+'。'o{0,}' 则等价于 'o'。
{n,m} |m 和 n 均为非负整数,其中n <= m。最少匹配 n 次且最多匹配 m 次。
? |当该字符紧跟在任何一个其他限制符 (, +, ?, {n}, {n,}, {n,m}) 后面时,匹配模式是非贪婪的。非贪婪模式尽可能少的匹配所搜索的字符串,而默认的贪婪模式则尽可能多的匹配所搜索的字符串。例如,对于字符串 "oooo",'o+?' 将匹配单个 "o",而 'o+' 将匹配所有 'o'。
. |匹配除 "\n" 之外的任何单个字符。要匹配包括 '\n' 在内的任何字符,请使用象 '[.\n]' 的模式。
x|y
|匹配 x 或 y。例如,z|food
能匹配 "z" 或 "food"。(z|f)ood
则匹配 "zood" 或 "food"。
[xyz] |匹配所包含的任意一个字符。
[^xyz] |匹配未包含的任意字符。例如, '[^abc]' 可以匹配 "plain" 中的'p'。
[a-z] |匹配指定范围内的任意字符。例如,'[a-z]' 可以匹配 'a' 到 'z' 范围内的任意小写字母字符。
[^a-z] |匹配任何不在指定范围内的字符。例如,'[^a-z]' 可以匹配任何不在 'a' 到 'z' 范围内的任意字符。
\b |匹配一个单词边界,也就是指单词和空格间的位置。例如, 'er\b' 可以匹配"never" 中的 'er',但不能匹配 "verb" 中的 'er'。
\B |匹配非单词边界。'er\B' 能匹配 "verb" 中的 'er',但不能匹配 "never" 中的 'er'。
\d |匹配一个数字字符。等价于 [0-9]。
\D |匹配一个非数字字符。等价于 [^0-9]。
\n |匹配一个换行符。等价于 \x0a 和 \cJ。
\r |匹配一个回车符。等价于 \x0d 和 \cM。
\s |匹配任何空白字符,包括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。
\S |匹配任何非空白字符。等价于 [^ \f\n\r\t\v]。
\w |匹配包括下划线的任何单词字符。等价于'[A-Za-z0-9_]'。
\W |匹配任何非单词字符。等价于 '[^A-Za-z0-9_]'。
\num |匹配 num,其中 num 是一个正整数。对所获取的匹配的引用。例如,'(.)\1' 匹配两个连续的相同字符。
2. 经典例子
语法 | 意义 |
---|---|
[1]+$ | 一个或多个汉字 |
[2]\d{4,10}$ | QQ号码 |
[3]+@[a-zA-Z0-9_-]+(.[a-zA-Z0-9_-]+)+$ | 邮箱,允许汉字,.[a-zA-Z0-9_-]+匹配".xx",(.[a-zA-Z0-9_-]+)+匹配多个".**" |
`^((http | https |