随笔- 443 文章- 77 评论- 996 阅读- 105万

最近在研读《正则指引》，再将正则相关知识点梳理一遍。

下图是JavaScript中的正则功能，说明一列可看到支持程度。

一、语法

1）量词

匹配优先量词（greedy quantifier），也称为贪婪量词，在拿不准是否要匹配的时候，优先尝试匹配，记下这个状态，以备将来返回（回溯）。

忽略优先量词（lazy quantifier或reluctant quantifier），也称为懒惰量词，优先尝试跳过。

下图是工具RegexBuddy中展示的回溯图，“backtrack”就是回溯的意思。

//贪婪量词
<p>.*<\/p>
//惰性量词
<p>.*?<\/p>
//匹配的字符串
<p>123</p><p>456</p>

贪婪量词	惰性量词

2）括号

1. 分组（grouping）

把一个表达式用括号括起来，括号内的表达式称为“子表达式”，例如“(\d{2}[0-9x])?”，括号内就变成了一个整体，或许不出现，或许出现一次。

2. 多选结构（alternative）

用竖线“(..|..)”分割开多个子表达式，这些子表达式也叫多选分支（option）。

3. 引用分组

正则表达式会保存每个分组真正匹配的文本，匹配完成后，通过group(num)之类的方法，“引用”分组在匹配时捕获的内容。num表示对应编号，从左往右，从1开始。JavaScript不支持命名分组。

4. 非捕获分组（non-capturing group）

前面说过，正则会保存匹配的文本，但有时候并不需要保存，提升性能，那么就需要非捕获。非捕获型括号就是开括号后紧跟问号与冒号“(?:...)”。

在《飞起来的正则表达式》中详细分析了匹配捕获的代码操作。

3）断言

1. 单词边界：【\b】

一边匹配【\w】（包括[0-9a-zA-Z]），一边不能匹配。下图深色部分是单词边界匹配的规则。

2. 行起始/结束位置：【^与$】

行终止符是【\r\n】，多行模式“m”可以在第二行继续匹配，例如需要匹配下面每个以数字开头的行，就能匹配第一和第三行。

1. first
no digit
3. third

3. 环视：顺序环视，逆序环视

环视类似单词边界，在旁边的文本满足某种条件，但本身不匹配任何字符。环视匹配的是位置，不是字符。JavaScript不支持逆序环视。

二、正则表达式原理

1）理论模型

正则表达式采用了一种理论模型，有穷自动机（Finite Automata），或叫状态机。

自动售货机就是一种有穷自动机，假设饮料价格都是整数，只接收5块钱的纸币，可能的状态就会有6个：5元、4元、3元、2元、1元和0元。

塞进5元 =》点1瓶可乐花掉3元 =》剩下3元按退币 =》状态切换到0元 =》 0元也叫最终状态。

2）正则引擎

正则引擎会将一个正则直接量或者 RegExp 编译为一个原生代码程序，也就是生成许多自动机（状态）；

测试的字符串会游走在各种状态之间，最终停在某个状态。

正则的引擎为两类：DFA和NFA：

DFA（Deterministic Finite Automaton）确定型有穷自动机，DFA引擎不需要进行回溯，所以匹配效率一般情况下要高，但是它并不支持捕获组，于是也就不支持反向引用和$这种形式的引用，也不支持环视(Lookaround)、非贪婪模式等一些NFA引擎特有的特性。

NFA（Non-deterministic Finite Automata）不确定型有穷自动机

NFA对于一个字符的输入有可能存在多个以上的状态转移，而DFA对于每一个输入只存在一个选择。

下图中DFA中S3位置输入a是S4，输入b是S2；而NFA中S2的位置输入b有两个可以转移到S3或S1.

所以每一个NFA都可以转化为一个DFA，但是一个DFA可以转化为多个NFA。

3）回溯

回溯的两个要点，引用自《精通正则表达式》第4章中的回溯：

1. 如果需要在“进行尝试”和“跳过尝试”之间选择，对于匹配优先量词，引擎会选择“进行尝试”；而忽略优先量词，会选择“跳过尝试”。

2. 回溯的时候，使用的分支是距离当前最近存储的选项，使用的原则是LIFO（Last In First Out）。

动画片中经常会出现走山洞，会在分岔路口丢块面包屑，用这个比喻就是，如果前面是死路，你只需原路返回，直到找到一堆面包屑为止。

三、正则技巧

1）关于元素的三种逻辑

按照元素（单个字符、字符组、多选分支等）的出现情况分为3类：必须出现，可能出现，不能出现。

不管正则多么复杂，总是这3种逻辑的组合。

2）表达式中的优先级

正则表达式的元素之间的组合关系只有4种。

四、正则表达式常见操作

1）提取

用正则表达式遍历整个字符串，找出匹配的文本。相关的方法是RegExp.exec(string)和string.match(RegExp)。

2）验证

检查字符串能否用正则表达式匹配。相关的方法是RegExp.test(string)。

3）替换

删除不必要的文本，调整数据。相关的方法是string.replace(RegExp, replacement)。

4）切分

元素是切分之后的片段。相关的方法是string.split(RegExp)。

在《JavaScript与PHP中正则》中有具体分析各个方法的使用。

五、工具

通过使用RegexBuddy这个工具，可以对正则有更多感性的认识。

1）Token

工具会将正则表达式分解成各个“Token”。

1. 示例

<p>.*?<\/p>

上面的表达式对应的Token如下：

在上图中描述出了正则是区分大小写、惰性匹配、还有各个字符的匹配。

上面的正则比较简单，可以找个复杂点的正则查看Token，例如匹配邮箱的正则。

^[a-zA-Z0-9.!#$%&'*+\/=?^_`{|}~-]+@[a-zA-Z0-9](?:[a-zA-Z0-9-]{0,61}[a-zA-Z0-9])?(?:\.[a-zA-Z0-9](?:[a-zA-Z0-9-]{0,61}[a-zA-Z0-9])?)*$

2. Explain Token

点击“Explain Token”将弹出chm文档，不是中文的。

3. Insert Token

这是个简便功能，可以快速插入元字符、Unicode字符、还有一些组合（所有字符等），环视等。

第一张图是点击后的下拉菜单，第二张图是Unicode字符选择。

2）Debug

1. 匹配

下图中带颜色的部分就是能够匹配的字符

2. 调试

调试的时候要注意一些细节，上图中红色选中部分，要把鼠标位置放在字符串的最前面。

点击“Debug”后就能看到匹配过程。将鼠标选中某一行，能够看到对应的Token。例如下图选中了13行，对应的Token会加一层底色。

3）性能调优

在第9.3章中给出了一些正则的优化建议，包括使用缓存、准确表达意图、避免重复匹配、独立出文本和锚点。

我理解正则比较消耗性能的地方是“回溯”，所以减少回溯越少，增加性能。还可以减少捕获，提升性能。

通过工具能够看到每次匹配过程中回溯的次数。

//匹配的字符串
<script>123456</script>
//回溯9次
<script>.+<\/script>
//回溯5次
<script>.+?<\/script>
//回溯7次，不捕获
<script>(?:(?!<\/script>).)+<\/script>

<script>.+<\/script>	<script>.+?<\/script>	<script>(?:(?!<\/script>).)+<\/script>

工具RegexBuddy下载：

http://download.csdn.net/download/loneleaf1/9809385

参考资料：

正则指引

正则匹配可以又快又简单(一)

正则表达式匹配也可以简单快速(上：原理部分)

Regular Expression Matching Can Be Simple And Fast

深入入门正则表达式（java） - 匹配原理 - 1 - 引擎分类与普适原则

posted on 2017-05-08 09:43 咖啡机（K.F.J）阅读(1037) 评论(3) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

阅读排行：
· 全程不用写代码，我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· MongoDB 8.0这个新功能碉堡了，比商业数据库还牛
· 记一次.NET内存居高不下排查解决与启示
· 白话解读 Dapr 1.15：你的「微服务管家」又秀新绝活了

公告

昵称：咖啡机（K.F.J）
园龄： 14年3个月
粉丝： 1233
关注： 9

+加关注

开源： shin-monitor

看云：躬行记

shin-monitor 是一款开源的前端监控脚本，不仅能监控前端的错误、通信、打印等行为，还能计算各类性能参数，包括 FMP、LCP、FP 等。

随笔分类

.NET(2)

Canvas(6)

CreateJS(3)

CSS(16)

CSS3动画(4)

CSS躬行记(11)

ES6躬行记(24)

Grape结构(3)

Hammer.js分析(4)

HTML(12)

HTML躬行记(4)

IOS(5)

JavaScript(51)

jekyll(2)

MySQL(1)

随笔档案

2025年1月(3)

2024年11月(2)

2024年9月(2)

2024年7月(1)

2024年6月(1)

2024年5月(2)

2024年4月(3)

2024年3月(2)

2024年2月(1)

2024年1月(3)

2023年12月(8)

2023年11月(3)

2023年10月(1)

2023年9月(1)

2023年8月(3)

一、语法

二、正则表达式原理

三、正则技巧

四、正则表达式常见操作

五、工具

公告

推荐书籍

推荐公众号

推荐微信群

搜索

常用链接

最新随笔

我的标签

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论