正则基础
【描述】 用特殊字符和序列,来为正则表达式书写模式。下面的表描述了这些字符,并包括了简短的例子,来说明如何使用这些字符。 ________________________________________________________________ 字符 | 描述 ---------------------------------------------------------------- \ | 标记下一个字符是特殊字符或文字。例如,"n" 和字符 "n" 匹配。 | "\n" 则和换行字符匹配。序列 "\\" 和 "\" 匹配,而 "\(" 则 | 和 "(" 匹配。 ---------------------------------------------------------------- ^ | 匹配输入的开头。 ---------------------------------------------------------------- $ | 匹配输入的末尾。 ---------------------------------------------------------------- * | 匹配前一个字符零或多次。例如,"zo*" 与 "z" 或 "zoo" 匹配。 ---------------------------------------------------------------- + | 匹配前一个字符一次或多次。例如,"zo+" 与 "zoo" 匹配,但和 "z" | 不匹配。 ---------------------------------------------------------------- ? | 匹配前一个字符零或一次。例如,"a?ve?" 和 "never" 中的 "ve" 匹 | 配。 ----------------------------------------------------------------- . | 匹配除换行字符外的任何单个字符。 ----------------------------------------------------------------- (pat- | 匹配 pattern 并记住该匹配。匹配上的子字符串,可以使用 Item tern) | [0]...[n],来从生成的 Matches 集合中取回。要匹配圆括号字 | 符 ( ),则需使用 "\(" 或 "\)"。 ----------------------------------------------------------------- x|y | 匹配 x 或 y。例如,"z|food" 和 "z" 或 "food" 匹配。"(z|f) | ood" 匹配 "zoo" 或 "food"。 ----------------------------------------------------------------- {n} | n 是非负整数。共匹配 n 次。例如,"o{2}" 和 "Bob" 中的 "o" 不匹 | 配,但和 "foooood" 中的前两个 o 匹配。 ----------------------------------------------------------------- {n,} | n 是一个非负整数。至少匹配 n 次。例如,"o{2,}" 和 "Bob" 中 | 的 "o" 不匹配,但和 "foooood" 中的所有 o 匹配。"o{1,}" | 与 "o+" 等效。"o{0,}" 和 "o*" 等效。 ----------------------------------------------------------------- {n,m} | m 和 n 是非负整数。至少匹配 n 次而至多匹配 m 次。例如,"o | {1,3}" 和 "fooooood" 中的前三个 o 匹配。"o{0,1}" 和 "o?" 等 | 效。 ----------------------------------------------------------------- [xyz] | 字符集合。匹配括号内的任一字符。例如,"[abc]" 和 "plain" 中 | 的 "a" 匹配。 ----------------------------------------------------------------- [^xyz]| 否定字符集合。匹配非括号内的任何字符。例如,"[^abc]" | 和 "plain" 中的 "p" 匹配。 ----------------------------------------------------------------- [a-z] | 字符范围。和指定范围内的任一字符匹配。例如,"[a-z]" 匹配 "a" | 到 "z"范围内的任一小写的字母表字符。 ----------------------------------------------------------------- [^m-z]| 否定字符范围。匹配不在指定范围内的任何字符。例如,"[m-z]" 匹配不 | 在 "m" 到 "z"范围内的任何字符。 ----------------------------------------------------------------- \b | 匹配字的边界,也就是说,在字和空格之间的位置。例如,"er\b" | 和 "never" 中的 "er" 匹配,但和 "verb" 中的 "er" 不匹配。 ----------------------------------------------------------------- \B | 匹配非字边界。"ea*r\B" 和 "never early" 中的 "ear" 匹配。 ----------------------------------------------------------------- \d | 匹配数字字符。等价于 [0-9]。 ----------------------------------------------------------------- \D | 匹配非数字字符。等价于 [^0-9]。 ----------------------------------------------------------------- \f | 匹配换页字符。 ----------------------------------------------------------------- \n | 匹配换行字符。 ----------------------------------------------------------------- \r | 匹配回车符字符。 ----------------------------------------------------------------- \s |匹配任何空白,包括空格、制表、换页等。与 "[ \f\n\r\t\v]" 等效。 ----------------------------------------------------------------- \S | 匹配任何非空白字符。与 "[^ \f\n\r\t\v]" 等效。 ----------------------------------------------------------------- \t | 匹配制表字符。 ----------------------------------------------------------------- \v | 匹配垂直制表符。 ----------------------------------------------------------------- \w | 匹配包括下划线在内的任何字字符。与 "[A-Za-z0-9_]" 等效。 ----------------------------------------------------------------- \W | 匹配任何非字字符。与 "[^A-Za-z0-9_]" 等效。 ----------------------------------------------------------------- \num | 匹配 num,其中 num 是一个正整数。返回记住的匹配的引用。例 | 如,"(.)\1" 匹配两个连续的同一字符。 ----------------------------------------------------------------- \n | 匹配 n,其中 n 是八进制换码值。八进制换码值必须是 1、2、或 3 位 | 长。例如,"\11" 和 "\011" 都匹配制表字符。"\0011" 和 "\001" | & "1" 是等效的。八进制换码值必须不超过 256。如果超过了,则只有 | 前两位组成表达式。允许在正则表达式中使用 ASCII 码。 ----------------------------------------------------------------- \xn | 匹配 n,其中 n 是十六进制换码值。十六进制换码值必须正好是两位 | 长。例如,"\x41" 与 "A" 匹配。"\x041" 和 "\x04" & "1" 是等效 | 的。允许在正则表达式中使用 ASCII 码。 -----------------------------------------------------------------
正则表达式的分组功能
A:正则表达式的分组功能
* 捕获组可以通过从左到右计算其开括号来编号。例如,在表达式 ((A)(B(C))) 中,存在四个这样的组:
*
1 ((A)(B(C)))
2 (A
3 (B(C))
4 (C)
组零始终代表整个表达式。
B:案例演示
a:切割
需求:请按照叠词切割: "sdqqfgkkkhjppppkl";
正则:(.)\1+
/** * 请按照叠词切割: "sdqqfgkkkhjppppkl"; * 思路:1)使用String的split方法 * 2)正则: (.)\1+ */ private static void demo02() { String in = "sdqqfgkkkhjppppkl"; String[] splits = in.split("(.)\\1+"); StringBuffer sb = new StringBuffer(); for (String i : splits) { sb.append(i); } System.out.println(sb); }
b:替换
需求:我我....我...我.要...要要...要学....学学..学.编..编编.编.程.程.程..程
将字符串还原成:“我要学编程”。
/** * 需求:我我....我...我.要...要要...要学....学学..学.编..编编.编.程.程.程..程,将字符串还原成:“我要学编程”。 * 思路:1)把.直接替换掉 \. * 2)把叠词替换掉 (.)\1+ 替换为 $1 */ private static void demo03() { String in="我我....我...我.要...要要...要学....学学..学.编..编编.编.程.程.程..程"; String s = in.replaceAll("\\.", ""); String out = s.replaceAll("(.)\\1+", "$1"); System.out.println(out); }
pattern
/** * 需求:从下面的一段话中提取手机号码 * 提供手机号码归属地查询,骚扰手机号码查询... 号码搜索 最新被举报骚扰电话: 447786205094 18095851778 57156056336 03165713829 15687537636 » 查询首页 » 河北 » ... 13905398888转让 * 思路:1)正则 1[\d]{10} * */ private static void demo04() { String s = "提供手机号码归属地查询,骚扰手机号码查询... 号码搜索 最新被举报骚扰电话: 447786205094 18095851778 57156056336 03165713829 15687537636 » 查询首页 » 河北 » ...\t\t13905398888转让"; Pattern p = Pattern.compile(" 1[\\d]{10}"); Matcher matcher = p.matcher(s); while (matcher.find()) { System.out.println(matcher.group()); } }
We only live once, and time just goes by.