03-正则的分组于引用

\d{15}(\d{3})? 在 \d{3} 整体后加问号，表示后面三位有或无

括号在正则中的功能就是用于分组。简单来理解就是，由多个元字符组成某个部分，应该被看成一个整体的时候，可以用括号括起来表示一个整体，这是括号的一个重要功能。其实用括号括起来还有另外一个作用，那就是“复用”，我接下来会给你讲讲这个作用。

分组与编号

括号在正则中可以用于分组，被括号括起来的部分“子表达式”会被保存成一个子组。

这里有个时间格式 2020-05-10 20:23:05。假设我们想要使用正则提取出里面的日期和时间。

这个正则中一共有两个分组，日期是第 1 个，时间是第 2 个。

不保存子组

以在括号里面使用 ?: 不保存子组。

如果正则中出现了括号，那么我们就认为，这个子表达式在后续可能会再次被引用，所以不保存子组可以提高正则的性能。

括号嵌套

数左括号（开括号）是第几个，就可以确定是第几个子组。

在阿里云简单日志系统中，我们可以使用正则来匹配一行日志的行首。假设时间格式是 2020-05-10 20:23:05 。

日期分组编号是 1，时间分组编号是 5，年月日对应的分组编号分别是 2，3，4，时分秒的分组编号分别是 6，7，8。

命名分组

前面我们讲了分组编号，但由于编号得数在第几个位置，后续如果发现正则有问题，改动了括号的个数，还可能导致编号发生变化，因此一些编程语言提供了命名分组（named grouping），这样和数字相比更容易辨识，不容易出错。命名分组的格式为(?P<分组名>正则)。

比如在 Django 的路由中，命名分组示例如下：

url(r'^profile/(?P<username>\w+)/$', view_func)

\w+ 这个正则表达式被命名为 username

需要注意的是，刚刚提到的方式命名分组和前面一样，给这个分组分配一个编号，不过你可以使用名称，不用编号，实际上命名分组的编号已经分配好了。不过命名分组并不是所有语言都支持的，在使用时，你需要查阅所用语言正则说明文档，如果支持，那你才可以使用。

分组引用

在知道了分组引用的编号（number）后，大部分情况下，我们就可以使用 “反斜扛 + 编号”，即 \number 的方式来进行引用，而 JavaScript 中是通过$编号来引用，如$1。

常见的编程语言中，分组查找和替换的引用方式：

分组引用在查找中使用

找重复出现的单词

分组引用在替换中使用

示例和练习网址：https://regex101.com/r/2RVPTJ/2

和查找类似，我们可以使用反向引用，在得到的结果中，去拼出来我们想要的结果。

>>> import re
>>> test_str = "2020-05-10 20:23:05"
>>> regex = r"((\d{4})-(\d{2})-(\d{2})) ((\d{2}):(\d{2}):(\d{2}))"
>>> subst = r"日期\1 时间\5   \2年\3月\4日 \6时\7分\8秒"
>>> re.sub(regex, subst, test_str)
'日期2020-05-10 时间20:23:05   2020年05月10日 20时23分05秒'

在 Python 中 sub 函数用于正则的替换，使用起来也非常简单，和在网页上操作测试的几乎一样。

在文本编辑器中使用

以文本编辑器 Sublime Text 3 为例，来讲解正则查找和替换的使用方式。首先，我们要使用的“查找”或“替换”功能，在菜单 Find 中可以找到。

下面是对编辑器查找 - 替换界面的图标简介，Find 输入栏第一个 .* 图标，表示开启或关闭正则支持。

编辑器中进行正则查找接下来，我们来演示用编辑器查找引号引起来的内容，课程中使用到的文本，建议你用 chrome 等浏览器等，打开网页版本，点击右键查看源代码，把看到的代码复制到 Sublime Text 3 中。

输入相应的正则，我们就可以看到查找的效果了。这里给一个小提示，如果你点击 Find All，然后进行剪切，具体操作可以在菜单中找到 Edit -> Cut，也可以使用快捷键操作。剪切之后，找一个空白的地方，粘贴就可以看到提取出的所有内容了。

我们可以使用正则进行资源链接提取，比如从一个图片网站的源代码中查找到图片链接，然后再使用下载工具批量下载这些图片。在编辑器中进行正则替换接着，我们再来看一下在编辑器中进行文本替换工作。

你可以在编辑器中输入这些文本：the little cat cat is in the hat hat, we like it.如果我们要尝试从中查找连续重复出现两次的单词，我们可以用 \w+ 代表单词，利用我们刚刚学习的知识，相信你可以很快写出正则 (\w+) \1。

接着点击菜单中的 Find -> Replace，在替换栏中输入子组的引用 \1 ，然后点击 Replace All 就可以完成替换工作了。

这样，通过少量的正则，我们就完成了文本的处理工作了。几乎所有主流编辑器都是支持正则的，你可以在你喜欢的编辑器中尝试一下这个例子，在后面的工作中，也可以尝试使用它来完成一些复杂的文本查找和替换工作。

总结

括号可以将某部分括起来，看成一个整体，也可以保存成一个子组，在后续查找替换的时候使用。

分组编号是指，在正则中第几个括号内就是第几个分组，而嵌套括号我们只要看左括号是第几个就可以了。如果不想将括号里面的内容保存成子组，可以在括号里面加上?: 来解决。

搞懂了分组的内容，我们就可以利用分组引用，来实现将“原文本部分内容”，在查找或替换时进行再次利用，达到实现复杂文本的查找和替换工作。

甚至在使用一些文本编辑器的时候，不写代码，我们就可以完成文本的查找替换处理工作，这往往可以节约很多开发时间。

小练习

有一篇英文文章，里面有一些单词连续出现了多次，我们认为连续出现多次的单词应该是一次，比如：

he little cat cat is in the hat hat hat, we like it.

其中 cat 和 hat 连接出现多次，

要求处理后结果是the little cat is in the hat, we like it.

答案： (\w+)(\s\1)

解题的思路是：

\w+ 用于选中出现一次到多次的字母，由于默认贪婪匹配最长，所以能选中每个单词，

由于是要找出重复的单词，所以要用第一次匹配成功的结果即使用分组 (\w+) \1，到此可以拿到重复两次场景的结果，对于重复两次以上的结果，需要重复刚刚的行为，但是不能一直叠加 \1 ，

自然想到了 +,得到了 (\w+) (\1)+，发现匹配不成功，

单词之间应该有空隙，(\1)+不能表示空隙，用\s代替敲出来的空格最终得到 (\w+)(\s+\1)+

posted on 2022-03-30 10:16 OwlInTheOaktree 阅读(192) 评论(0) 编辑收藏举报