java正则表达式（九）

九、后向引用

在正则表达式中，后向引用用于重复搜索前面某个分组匹配的文本，例如，\1代表分组1匹配的文本，同理， \2 将匹配第二个子表达式，\3 将匹配第三个，依此类推，难以理解？请看示例：

在以下一段html文本中：

<BODY>
<H1>Welcome to my Homepage</H1>
Content is divided into two sections:<BR>
<H2>ColdFusion</H2>
Information about Macromedia ColdFusion.
<H2>Wireless</H2>
Information about Bluetooth, 802.11, and more.
</BODY>

我们需要把<H1></H1>等这种段落标签，都匹配出来，如何实现呢？我们可以利用反向引用来进行匹配，反向引用匹配正则表达式如下：

<[hH]([1-6])>.*?</[hH]\1>

结合上节所讲内容，（[1-6]）加上了括号，成为了子表达式，在我们整个正则表达式中，模式的最后部分是“\1”，即子表达式的后向应用，因此，当（[1-6]）匹配到了1-6的任意数字时，那么“\1”也将匹配之前出现的数字，代码示例如下：

 1 package regexp;
 2 
 3 import java.util.regex.Matcher;
 4 import java.util.regex.Pattern;
 5 
 6 public class Test {
 7     public static void main(String[] args) {
 8         String s="<BODY>"+
 9                 "<H1>Welcome to my Homepage</H1>"+
10                 "Content is divided into two sections:<BR>"+
11                 "<H2>ColdFusion</H2>"+
12                 "Information about Macromedia ColdFusion."+
13             "<H2>Wireless</H3>"+
14                 "Information about Bluetooth, 802.11, and more."+
15                 "</BODY>";
16         String reg="<[hH]([1-6])>.*?</[hH]\\1>";
17         
18         Pattern patt=Pattern.compile(reg);
19         Matcher mc=patt.matcher(s);
20         
21         while(mc.find()){
22             System.out.println(mc.group().trim());
23         }
24         
25         /**
26          * 输出：
27          * <H1>Welcome to my Homepage</H1>
28          * <H2>ColdFusion</H2>
29          */
30     }
31 }

注：<H2>Wireless</H3>并未匹配成功，因为，在（[1-6]）进行匹配时，所匹配的数字为2，那么，后向应用的数字也应为2，但是这里</H3>标签，最后数字为3，因此，后向匹配不成功，所以

<H2>Wireless</H3>匹配失败！

posted on 2012-10-25 22:29 loritin 阅读(655) 评论(0) 编辑收藏举报

刷新页面返回顶部

loritin

java正则表达式（九）

导航

公告