3.2.3.5 分组
在 ERE 里,我们已经提到运算符是被应用到“前置的正则表达式”。这是因为圆括号 (...) 提供分组功能,让接下来的运算符可以应用。举例来说,(why)+ 匹配于一个连续重复的多个 why 。
在必须用到交替时, 分组的功能就特别好用(也是必须的)。它可以让你用以构建复杂并灵活的正则表达式。 [Tt]he (CPU|computer) is 指的就是:在 The (the)与 is 之间,含有 CPU 或 computer 的句子。要特别注意的一点是,圆括号在这里是 meta 字符,而非要匹配的输入文本。
将重复运算符与交替功能结合时,分组功能也是一定用得到的。 read|write+指的是正好一个 read ,或是一个 write 后面接着任意数个 e 字符,比较有用的模式应该是 (read|write)+,它指的是:有一个或重现多个 read ,或者一个或重现多个 write 。
当然,(read|write)+ 所指的字符串中间,不允许有空白。((read|write)[[:space:]*])+ 的正则表达式看起来虽然比较复杂,不过也比较实际些。乍看之下,这可能会搞不清,不过若把这些组成部分分隔开来看,其实就不难理解。
结论就是:这个单个正则表达式是用以匹配多个连续出现的 read 或是 write,且中间可能被空白字符隔开。
在 [[:space:]] 之后使用 * 是一种判断调用。使用一个 * 而非 + ,此匹配可以取得在行(或字符串)结尾的单词。但也可能可以匹配中间完全没有空白的单词。 运用正则表达式时常会需要用到这样的判断调用。该如何构建正则表达式,需要根据输入的数据以及这些数据的用途而定。
最后要说的是:将交替操作结合 ^ 与 $ 锚点字符使用时,分组就非常好用了。由于 | 为所有运算符中优先级最低的,因此正则表达式 ^abcd|efgh$意思是“匹配字符串的起始处是否有 a b c d 或者字符串结尾处是否有 e f g h ”。这和 ^(abcd|efgh)$ 不一样,后者表示的是“找一个正是abcd或正是efgh的字符串”。