正则基础

【描述】
    用特殊字符和序列,来为正则表达式书写模式。下面的表描述了这些字符,并包括了简短的例子,来说明如何使用这些字符。 
________________________________________________________________
字符  |                     描述 
----------------------------------------------------------------
\     |  标记下一个字符是特殊字符或文字。例如,"n" 和字符 "n" 匹配。
      |  "\n" 则和换行字符匹配。序列 "\\" 和 "\" 匹配,而 "\(" 则
      |  和 "(" 匹配。 
----------------------------------------------------------------
^     |  匹配输入的开头。 
----------------------------------------------------------------
$     |  匹配输入的末尾。 
----------------------------------------------------------------
*     |  匹配前一个字符零或多次。例如,"zo*" 与 "z" 或 "zoo" 匹配。 
----------------------------------------------------------------
+     |  匹配前一个字符一次或多次。例如,"zo+" 与 "zoo" 匹配,但和 "z" 
      |  不匹配。  
----------------------------------------------------------------
?     |  匹配前一个字符零或一次。例如,"a?ve?" 和 "never" 中的 "ve" 匹
      |  配。  
-----------------------------------------------------------------
.     | 匹配除换行字符外的任何单个字符。  
-----------------------------------------------------------------
(pat- |  匹配 pattern 并记住该匹配。匹配上的子字符串,可以使用 Item 
tern) |  [0]...[n],来从生成的 Matches 集合中取回。要匹配圆括号字
      |  符 ( ),则需使用 "\(" 或 "\)"。 
-----------------------------------------------------------------
x|y   |  匹配 x 或 y。例如,"z|food" 和 "z" 或 "food" 匹配。"(z|f)
      |  ood" 匹配 "zoo" 或 "food"。  
-----------------------------------------------------------------
{n}   | n 是非负整数。共匹配 n 次。例如,"o{2}" 和 "Bob" 中的 "o" 不匹
      | 配,但和 "foooood" 中的前两个 o 匹配。 
-----------------------------------------------------------------
{n,}  | n 是一个非负整数。至少匹配 n 次。例如,"o{2,}" 和 "Bob" 中
      |  的 "o" 不匹配,但和 "foooood" 中的所有 o 匹配。"o{1,}" 
      | 与 "o+" 等效。"o{0,}" 和 "o*" 等效。 
-----------------------------------------------------------------
{n,m} | m 和 n 是非负整数。至少匹配 n 次而至多匹配 m 次。例如,"o
      |  {1,3}" 和 "fooooood" 中的前三个 o 匹配。"o{0,1}" 和 "o?" 等
      | 效。 
-----------------------------------------------------------------
[xyz] | 字符集合。匹配括号内的任一字符。例如,"[abc]" 和 "plain" 中
      | 的 "a" 匹配。 
-----------------------------------------------------------------
[^xyz]| 否定字符集合。匹配非括号内的任何字符。例如,"[^abc]" 
      |  和 "plain" 中的 "p" 匹配。  
-----------------------------------------------------------------
[a-z] | 字符范围。和指定范围内的任一字符匹配。例如,"[a-z]" 匹配 "a" 
      | 到 "z"范围内的任一小写的字母表字符。  
-----------------------------------------------------------------
[^m-z]| 否定字符范围。匹配不在指定范围内的任何字符。例如,"[m-z]" 匹配不
      | 在 "m" 到 "z"范围内的任何字符。  
-----------------------------------------------------------------
\b    | 匹配字的边界,也就是说,在字和空格之间的位置。例如,"er\b" 
      | 和 "never" 中的 "er" 匹配,但和 "verb" 中的 "er" 不匹配。  
-----------------------------------------------------------------
\B    | 匹配非字边界。"ea*r\B" 和 "never early" 中的 "ear" 匹配。  
-----------------------------------------------------------------
\d    | 匹配数字字符。等价于 [0-9]。  
-----------------------------------------------------------------
\D    | 匹配非数字字符。等价于 [^0-9]。  
-----------------------------------------------------------------
\f    | 匹配换页字符。  
-----------------------------------------------------------------
\n    | 匹配换行字符。  
-----------------------------------------------------------------
\r    | 匹配回车符字符。  
-----------------------------------------------------------------
\s    |匹配任何空白,包括空格、制表、换页等。与 "[ \f\n\r\t\v]" 等效。 
-----------------------------------------------------------------
\S    | 匹配任何非空白字符。与 "[^ \f\n\r\t\v]" 等效。  
-----------------------------------------------------------------
\t    | 匹配制表字符。  
-----------------------------------------------------------------
\v    | 匹配垂直制表符。  
-----------------------------------------------------------------
\w    | 匹配包括下划线在内的任何字字符。与 "[A-Za-z0-9_]" 等效。  
-----------------------------------------------------------------
\W    | 匹配任何非字字符。与 "[^A-Za-z0-9_]" 等效。  
-----------------------------------------------------------------
\num  | 匹配 num,其中 num 是一个正整数。返回记住的匹配的引用。例
      | 如,"(.)\1" 匹配两个连续的同一字符。  
-----------------------------------------------------------------
\n    | 匹配 n,其中 n 是八进制换码值。八进制换码值必须是 1、2、或 3 位
      | 长。例如,"\11" 和 "\011" 都匹配制表字符。"\0011" 和 "\001" 
      | & "1" 是等效的。八进制换码值必须不超过 256。如果超过了,则只有
      | 前两位组成表达式。允许在正则表达式中使用 ASCII 码。 
-----------------------------------------------------------------
\xn   | 匹配 n,其中 n 是十六进制换码值。十六进制换码值必须正好是两位
      | 长。例如,"\x41" 与 "A" 匹配。"\x041" 和 "\x04" & "1" 是等效
      | 的。允许在正则表达式中使用 ASCII 码。 
-----------------------------------------------------------------

正则表达式的分组功能

A:正则表达式的分组功能

* 捕获组可以通过从左到右计算其开括号来编号。例如,在表达式 ((A)(B(C))) 中,存在四个这样的组:
*
1 ((A)(B(C)))
2 (A
3 (B(C))
4 (C)

组零始终代表整个表达式。
B:案例演示
a:切割
需求:请按照叠词切割: "sdqqfgkkkhjppppkl";

正则:(.)\1+

    /**
     * 请按照叠词切割: "sdqqfgkkkhjppppkl";
     * 思路:1)使用String的split方法
     * 2)正则: (.)\1+
     */
    private static void demo02() {

        String in = "sdqqfgkkkhjppppkl";
        String[] splits = in.split("(.)\\1+");
        StringBuffer sb = new StringBuffer();
        for (String i : splits) {
            sb.append(i);
        }
        System.out.println(sb);
    }

  

b:替换
需求:我我....我...我.要...要要...要学....学学..学.编..编编.编.程.程.程..程
将字符串还原成:“我要学编程”。

  

/**
     * 需求:我我....我...我.要...要要...要学....学学..学.编..编编.编.程.程.程..程,将字符串还原成:“我要学编程”。
     * 思路:1)把.直接替换掉  \.
     *      2)把叠词替换掉  (.)\1+ 替换为 $1
     */
    private static void demo03() {
        String in="我我....我...我.要...要要...要学....学学..学.编..编编.编.程.程.程..程";
        String s = in.replaceAll("\\.", "");
        String out = s.replaceAll("(.)\\1+", "$1");
        System.out.println(out);
    }

 pattern

 /**
     * 需求:从下面的一段话中提取手机号码
     * 提供手机号码归属地查询,骚扰手机号码查询... 号码搜索 最新被举报骚扰电话: 447786205094 18095851778 57156056336 03165713829 15687537636 » 查询首页 » 河北 » ...		13905398888转让
     * 思路:1)正则 1[\d]{10}
     *
     */
    private static void demo04() {
        String s = "提供手机号码归属地查询,骚扰手机号码查询... 号码搜索 最新被举报骚扰电话: 447786205094 18095851778 57156056336 03165713829 15687537636 » 查询首页 » 河北 » ...\t\t13905398888转让";
        Pattern p = Pattern.compile(" 1[\\d]{10}");
        Matcher matcher = p.matcher(s);
        while (matcher.find()) {
            System.out.println(matcher.group());
        }
    }

  

 

posted @ 2020-08-14 15:49  酸奶加绿茶  阅读(283)  评论(0编辑  收藏  举报