本人原创,首发于开源中国。
大概和我不以程序员为职业有关吧,我本人是比较喜欢算法的那种,当然是比不了科班出身的。
比如我就写过很多版本的算术表达式解析器,优先级堆栈的;二叉树的;分治策略的;修正计算顺序的……
正则表达式两个我也写过两个,一个采用的回溯算法,另一个则是二叉树版本的,虽然这俩倒是都能用吧,但是对分组的处理(分组是采用递归调用的方法实现的,相当于另一个正则表达式)实在是不太好,这个缺点导致很多时候搜索的结果会遗漏很多,而二叉树版本的还有个缺点是选择操作“|”只能获得第一个匹配…………
就效果看,这俩都是残次品。
后来,我在vczh的博客里看到了他的一个科普贴子,在那里面,我才了解到还有有限自动机这种方法。
之后我花了不少时间去思考,因为总觉得这个方法太麻烦了,断断续续有2-3个月吧,想来想去也没想出什么更好的法子,最后还是觉得只有用有限自动机才合适。
不过多少我还是做了些修改的,倒不是为了效率,是为了减少打字量……
主要修改如下:
(1)不每个字符转移一次状态,而是尽可能的把连续的字符作为一个整体进行比对。
(2)不弄什么字母分组表,数据结构就使用指针链表,节省工作量
(3)“{a,b}”这种有次数限定的重复,vczh是采用复制节点实现的,我采用增加状态边来解决(效率会下降)
(4)分组命名,向前向后预查这些花哨而实用的功能,俺就丢了
那么,整体上看,正则表达式引擎的设计我就划分为如下几个步骤:
1)对规则字符串做预处理,主要是换行这类要使用转义符的字符,这个预处理可以把这些字符还原
2)将规则字符串进行划分,修正成操作符、操作数的列表形式
3)对这个列表进行处理,获得NFA状态转移图
4)将NFA状态转移图里的ε边消去,减少状态转移数
5)利用得到的状态转移图,对字符串进行匹配
第一步很容易解决,无非就是找到'\',然后将后跟't'、'n'、'r'等字符的修正为相应的制表、换行……
第二步也相对简单,无非是识别几个操作符:
'*'、'+'、'?'、'*?'、'+?'、'??'、'('、'(:'、')'、'|'、'['、']'、'{'、'}'
比较特殊的是:
因为把连续的字符看做一个整体,所以在后跟重复或者可选运算符时,要检查一下是否需要断开字符串;
'['后面要一直读取到前面不是'\'的']',期间不作分析,结果作为一个整体
'{'后面有'{a}'、'{a,}'、'{,a}'、'{a,b}'这几种形式,同样是读取为一个整体
还有一个隐藏的操作符,它的作用是将两个操作数连接起来,类似算术里的“*”,关于它另有介绍[*]
如此一来,列表里的成员记录的内容就会有好几种,python里这不算啥,C++里就麻烦一些,我采用的是struct和union来回嵌套+标志字节的办法来处理这个问题。
(如果使用正则表达式这一步非常轻松,可是如果用了就真成了笑话了)
[*]被隐藏了的“连接”运算符,比如“ab[cd]”这个字符串,分析后的两个元素“ab”和“[cd]”正是通过这个操作符连接的。这个隐藏运算符我是用后面的Operator类的一个补足函数来填充修复的,不然就得另外写一个函数了。
第三步,进行有限自动机的搭建操作
我们要构造一个有限自动机,而这个自动机是用一个表达式来构建的,很容易可以想到,我们完全可以把表达式耳的操作数看做一个小号的自动机(或者说是状态图),而操作符的效果是对状态图进行修饰,或者连接两个状态图,当我们执行完表达式解析后,就可以得到一个完整的表达式的状态图了。
像是算术表达式这种给定输入只有一个结果的,表示成树的形式就可以满足要求了,而正则表达式对给定输入会有多个结果(虽然通常我们只要第一个结果),也确实只能用图表示。
操作数有三种,连续字符;包含;分组提取比较。都用如下状态图表示:
注意我把所有的操作都放在边上,状态节点处不做任何行为。
每一个操作数所对应的状态图,都各有唯一的进入节点和退出节点(我们不需要关系状态图内部的情况)
'?'操作符,也即是可选操作符,它的效果如下(从操作数修饰的来):
'??'的效果类似,但是ε边的优先级较高(图中靠上的边优先级高)
类似的,还有'*'、'*?':
输入输出节点为新建节点,'*?'的ε边的优先级较高
以及'+'、'+?':
输入输出节点为新建节点,'+?'的ε边的优先级较高
隐藏的“连接”操作符:
左俩操作数1,右俩操作数2
选择操作符,"|":
上面一排为操作数1,下面一排为操作数2
分组"( )":
黑色分别表示报告分组的起止点的字符串位置
一般不分组的括号"(: )",这个完全没啥操作,不用修饰,直接返回操作数就好了
限定次数的操作符(是的,看做操作符)"{a,b}":
红色表示进入循环,蓝色累计次数,绿色退出循环
如此,我们就得到了生成操作数的方法,以及所有操作符的操作效果
结合这些,我们就可以通过分析表达式来生成一个完整的有限自动机了。
分析表达式的方法么,自然是很多的,算术表达式分析器稍微改改就能拿来分析之前得到的列表了,无非是新的运算符,新的运算函数(函数指针真是棒啊真是棒)、新的操作数而已,整体架构变化极小。
当然,我是用的我之前写的一个可定制的表达式解析器,那是一个模板类,支持一元运算符(前置、后置)、二元运算符(左结合、右结合)、括号(普通括号、后缀括号),只要把这些运算符和它们对应的处理函数注册进去就行了。(还可以注册操作数生成函数、操作符生成函数、销毁函数等一系列函数)
所以具体写法就不多说了,拿个算术表达式解析器慢慢改就是。
第四步,消去ε边
理论上,即使不消ε边也是没有问题的,顶天多转移两次状态,多花点时间罢了,对匹配的影响,嗯,不大。
不过出于效率,我们还是要消一下的。
只要在纸上写写画画几次,就能看出来了,消ε边的规则如下:
1)遍历状态图,找到一个ε边,设其起点为A,终点为B
2)如果A==B,也就是起点终点重合,这个ε边是坏边,删掉它
3)如果B只有ε边一个输入边,那么我们只需要将B的所有输出转移到A上,取代ε边的位置即可
4)如果A只有ε边一个输出边,那么我们只需要将所有指向A的边的目标都改成B并删掉ε边就行了
5)否则,我们就只好复制B的所有输出,插入A的ε边的位置(删掉ε边)
遍历状态图完成上述的操作后,ε边是消去了,但是还有大量的无用节点(没有输入边的节点)保留了下来,所以我们还要删掉这些节点。
注意在消去ε边之前要现在起点添加一个输入边(进入匹配),终点要添加一个输出边(匹配成功,指向NULL即可),以免在消ε边时将正常节点误删。
另外,我们在出列"(: )"是,只是添加了报告位置的输出边,那么现在,我们需要对这些边进行编号了,以方便讲报告的数据写入相应的分组里。(分组进行编号要在消去ε边之前!不然会因为边的复制出现错误)
我不是使用列表来表示状态图的,那样实在是不够直观,不好理解,我使用的是梳状链表,分别有节点和路径两种类型,然后节点形成一个链表,每个节点下有一个路径的链表(表示以该节点为起点的路径),每个路径都包含着目标节点的指针(和条件、操作)。于是,不考虑目标路径的指针的话,整个结构就好像是参差不齐的梳子一样。
这样的好处是比较直观,利于插入删除节点和边,缺点是打字较多……,还有一个好处,就是保持了节点的相对位置——于是我们可以正确的对报告边进行编号,至于这个编号就比较简单了,堆栈也好,状态数组也好,实现起来都简单的很,不多说。
第五步,进行匹配
匹配么,有了有限自动机,反而容易多了,vczh的有限自动机是没有我另加的三个边(进入重复、累计重复、退出重复——这三个边是配合起来实现限定次数重复的)的,他只需要记录当前节点、当前匹配位置、分组数据即可,而我还需要记录重复堆栈和当前重复指示,效率无疑是低了些。
匹配的方法,相当简单。
首先,我们需要一个堆栈,堆栈的成员是上述的数据(当前节点、当前匹配位置、分组数据、重复堆栈和当前重复指示),我使用的是一个定长的struct,相对简单,但缺点是对分组数目和重复的嵌套次数都有限制。
先往堆栈里加入最初状态;随后进入循环。每一次循环,都从堆栈里取出一个成员,然后根据成员的当前节点下的路径,凡是能走通的都生成新的状态加入堆栈里。这个循环不断进行,直到堆栈清空(匹配失败),或者到达最后结束节点为止(我使用的就是NULL)。
如此,这个正则表达式引擎已经基本完成了。只要再做一下包装(比如我用一个类进行了封装,添加了一些基于基本匹配的进阶方法),就可以投入使用了。
总结
其实,整个表达式写下来,包括数据结构和各种函数等等等等,也不过不到1000行,20kb左右大小。
但是,不是这么计算的。
写正则表达式,我有了不少以前的积累:
使用了List(类似python的列表)、Graph(梳状链表)、BlockStack(块状数组堆栈)三个容器模板;
使用了Label(char*的封装,差不多等于C++的string)这个类;
使用了Operator(可定制表达式解析器类模板)来第二次分析表达式构建自动机;
而Operator使用了Cast类来实现映射,Cast类是使用RBT(红黑树)和Item(映射)类实现的……
使用了Environment(利用类的构造函数和全局变量模拟预处理函数)来进行数据的预处理和注册函数。
全部加起来,即使去掉无关部分,估计也要2000-3000行,50kb左右吧。
以前的积累真的救了我一命。