正则表达式引起的性能下降

阅读目录

藏在正则表达式里的陷阱

背景：在学习性能优化的知识时，发现一个因为正则表达式引起的性能下降问题，记录下来

藏在正则表达式里的陷阱

通过java自带的线程dump工具发现出问题的线程是字符串的校验

ps：也可以通过代码注释的方式，发现出问题的地方就是正则校验

其实这里导致 CPU 使用率高的关键原因就是：Java 正则表达式使用的引擎实现是 NFA 自动机，这种正则表达式引擎在进行字符匹配时会发生回溯（backtracking）。而一旦发生回溯，那其消耗的时间就会变得很长，有可能是几分钟，也有可能是几个小时，时间长短取决于回溯的次数和复杂度。

正则表达式基础知识

正则表达式是一个用正则符号写出的公式，程序对这个公式进行语法分析，建立一个语法分

析树，再根据这个分析树结合正则表达式的引擎生成执行程序（这个执行程序我们把它称作

状态机，也叫状态自动机），用于字符匹配。

而这里的正则表达式引擎就是一套核心算法，用于建立状态机。

目前实现正则表达式引擎的方式有两种：DFA 自动机（Deterministic Final Automata 确

定有限状态自动机）和 NFA 自动机（Non deterministic Finite Automaton 非确定有限

状态自动机）。

说起回溯陷阱，要先从正则表达式的引擎说起。正则引擎主要可以分为基本不同的两大类：一种是DFA（确定型有穷自动机），另一种是NFA（不确定型有穷自动机）。简单来讲，NFA 对应的是正则表达式主导的匹配，而 DFA 对应的是文本主导的匹配。

DFA从匹配文本入手，从左到右，每个字符不会匹配两次，它的时间复杂度是多项式的，所以通常情况下，它的速度更快，但支持的特性很少，不支持捕获组、各种引用等等；而NFA则是从正则表达式入手，不断读入字符，尝试是否匹配当前正则，不匹配则吐出字符重新尝试，通常它的速度比较慢，最优时间复杂度为多项式的，最差情况为指数级的。但NFA支持更多的特性，因而绝大多数编程场景下（包括java，js），我们面对的是NFA。

假设一个字符串的长度是 n，如果用 DFA 自动机作为正则表达式引擎，则匹配的时间复杂

度为 O(n)；如果用 NFA 自动机作为正则表达式引擎，由于 NFA 自动机在匹配过程中存在

大量的分支和回溯，假设 NFA 的状态数为 s，则该匹配算法的时间复杂度为 O（ns）。

NFA 自动机的优势是支持更多功能。例如，捕获 group、环视、占有优先量词等高级功

能。这些功能都是基于子表达式独立进行匹配，因此在编程语言里，使用的正则表达式库都

是基于 NFA 实现的

其实在正则表达式中有这么三种模式：贪婪模式、懒惰模式、独占模式。

在关于数量的匹配中，有 + ? * {min,max} 四种两次，如果只是单独使用，那么它们就是贪婪模式。

如果在他们之后加多一个 ? 符号，那么原先的贪婪模式就会变成懒惰模式，即尽可能少地匹配。但是懒惰模式还是会发生回溯现象的。

如果在他们之后加多一个 + 符号，那么原先的贪婪模式就会变成独占模式，即尽可能多地匹配，但是不回溯。

最后推荐一个网站，这个网站可以检查你写的正则表达式和对应的字符串匹配时会不会有问题。

Online regex tester and debugger: PHP, PCRE, Python, Golang and JavaScript

一个由正则表达式引发的血案 - 明志健致远 - 博客园

ps：这个文章对于贪婪模式懒惰模式独占模式讲的很清晰，看完受益匪浅

也可以作为一个解决cpu 100%耗时问题的案例

如果您觉得阅读本文对您有帮助，请点一下“推荐”按钮，让更多的人能够享受到获取知识的快乐！因为本人初入职场，鉴于自身阅历有限，所以本博客内容大部分来源于网络中已有知识的汇总，欢迎各位转载，评论，大家一起学习进步！如有侵权，请及时和我联系，切实维护您的权益！

posted @ 2022-04-28 09:55 CS408 阅读(1855) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· 12 | 多线程之锁优化（上）：深入了解Synchronized同步锁的优化方法

· 10 | 第1～9讲课后思考题答案及常见问题答疑

· 藏在正则表达式里的陷阱

· 正则对cpu的消耗

· 正则表达式是如何运作的？不确定有限自动机确定有限自动机

阅读排行：
· 震惊！C++程序真的从main开始吗？99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码？零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾（3.3-3.9）
· Vue3状态管理终极指南：Pinia保姆级教程

历史上的今天：
2019-04-28 （转）Java并发包基石-AQS详解

公告

访问统计：

昵称： CS408
园龄： 9年10个月
粉丝： 121
关注： 4

+加关注

2025年3月

日

一

二

三

四

五

六

CS408

天下事有难易乎？为之，则难者亦易矣；不为，则易者亦难矣。人之为学有难易乎？学之，则难者亦易矣；不学，则易者亦难矣。

正则表达式引起的性能下降

藏在正则表达式里的陷阱

正则表达式基础知识

一个由正则表达式引发的血案 - 明志健致远 - 博客园

公告

搜索

常用链接

我的标签

随笔分类 (555)

随笔档案 (558)

阅读排行榜

评论排行榜

推荐排行榜

最新评论

CS408

天下事有难易乎？为之，则难者亦易矣；不为，则易者亦难矣。 人之为学有难易乎？学之，则难者亦易矣；不学，则易者亦难矣。

正则表达式引起的性能下降

藏在正则表达式里的陷阱

正则表达式基础知识

一个由正则表达式引发的血案 - 明志健致远 - 博客园

公告

搜索

常用链接

我的标签

随笔分类 (555)

随笔档案 (558)

阅读排行榜

评论排行榜

推荐排行榜

最新评论

天下事有难易乎？为之，则难者亦易矣；不为，则易者亦难矣。人之为学有难易乎？学之，则难者亦易矣；不学，则易者亦难矣。