正则表达式引擎
一、前言
1.1 正则表达式
正则表达式的概念最开始是由 Unix 中的工具软件 (如 sed 和 grep) 普及开的。正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的
组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。给定一个正则表达式和另一个字符串,我们可以达到如下的目的:
- 给定的字符串是否符合正则表达式的过滤逻辑(称作“匹配”);
- 可以通过正则表达式,从字符串中获取我们想要的特定部分。
正则表达式的特点是:
- 灵活性、逻辑性和功能性非常的强;
- 可以迅速地用极简单的方式达到字符串的复杂控制。
由于正则表达式主要应用对象是文本,因此它在各种文本编辑器场合都有应用,小到著名编辑器 EditPlus,大到 Microsoft Word、Visual Studio 等大型编辑器,都可以使用正则表达式
来处理文本内容。[1]
正则表达式是一种文本模式,包含普通字符和特殊字符,其中特殊字符又称为“元字符”,元字符完整列表参见 正则表达式列表。可以将元字符分为三类:
- 普通字符集合:通过标记表示多种普通字符,例如‘.’代表除换行符以外的其他任意字符。
- 定界字符:表示位置的一类字符,用于边界检测,例如‘%blatex%b’是用来匹配单词latex 的,是一种全词匹配。
- 控制字符:控制重复、分支以及分组的一类字符,例如‘*’表示重复 0 至任意次。
文本模式就是通过这些元字符、普通字符的组合来表示,使用这些字符可以以很简洁的形式表示某种字符串结构。正则表达式的作用不仅仅局限在文本的搜索匹配上,在网络安全 [2]、数据库查询 [3]、协议识别 [4] 等领域都有应用。
1.2 贪婪匹配
贪婪算法又称为贪心法,是一种比较简单的算法。与动态规划法类似,贪心法常用于求解问题的最优解。贪心法在解决问题的策略上是根据当前的已知信息做出决策,并且决策之后就不再改变。可见,贪心法并非是从全局最优考虑,而是局部最优,这种局部最优不能保证所求出的解是全局最优解,但是一般情况下是近似最优解。能用贪心法求得最优解的问题通常具有以下两种性质:
- 最优子结构。当一个问题的最优解包含其子问题的最优解时,称此问题具有最优子结构。
- 贪心选择性质。全局最优解可以通过一系列的局部最优解的选择来得到。
使用贪心法解决的典型问题有排课问题 [5]、背包问题 [6] 和多机调度问题 [7]。
1.3 说明
- 仅仅要求匹配 ASCII 中的可显示字符。
- 不需要处理表意冲突的情况。
- 存在多个输出结果时, 仅仅匹配第一个输出结果。
- 不要求能识别错误的正则表达式。
二、算法设计
设计要求实现元字符和反义字符的匹配、重复匹配、分支匹配、分组匹配这几项基本功能。其中分组匹配只要求实现后项引用,可以使用字符串替换进行处理,此外,分支匹配也可以转换成多个标准模式字符串,那么实现标准模式字符串的匹配过程,就实现了整个模式字符串的匹配。其中标准模式字符串的定义如下:
定义 2.1 (标准模式字符串) 模式字符串中,不存在分支及分组,并且不存在多余的括号,括号只能在跟有重复项的情况下出现,这样的字符串称为标准模式字符串。
在对原始模式字符串的处理过程中,首先进行文本的预处理过程,预处理是为了得到标准模式字符串,然后进行标准模式字符串的匹配过程,其中预处理过程主要是字符串的处理过程。整体流程如下图所示:
字符串匹配以标准模式字符串为界,前面一部分是字符串的转换过程,后一部分是匹配过程。下面将按照处理流程,分别阐述分组处理、分支处理、标准格式匹配三个步骤:
2.1 分组处理
正则表达式的分组使用一对括号‘(’、‘)’表示一个子表达式,这个子表达式为一个分组。每个分组都会分配一个组号,分配的规则为:从左向右, 以分组的左括号为标志, 第一个出现的分组的组号为 1, 第二个为 2, 以此类推。后向引用用于重复搜索前面某个分组匹配的文本。要得到无分组引用的模式字符串,需要将引用的子表达式替换掉引用记号。实现这一功能,需要分两步进行:
- 提取分组。从原始字符串中,提取出个子表达式,并且按照组号进行排列。
- 替换。用子表达式替换所有的引用记号。
提取文本中的分组是一种括号匹配问题,对于这类问题通常使用栈实现。实现算法如下:
struct Slice{ int index; string value; int ter; int start; }; typedef vector<Slice> VecSlice; VecSlice getSliceOfPattern(string s, VecInt & vertex) { VecSlice vSlice; string value; value = ""; Slice slice; stack<int> bra; int index = 0; vertex.push_back(-1); while (index < s.size()) { if (isSeparator(s[index])) { slice.value = value; value = ""; slice.ter = index; slice.start = index - slice.value.size() - 1; vertex.push_back(index); switch (s[index]) { case '(': vSlice.push_back(slice); slice.index = index; bra.push(index); break; case ')': vSlice.push_back(slice); slice.index = index; bra.pop(); break; case '|': vSlice.push_back(slice); if (bra.size() == 0) slice.index = -1; else slice.index = bra.top(); break; } } else value = value + s[index]; index++; } slice.value = value; slice.ter = index; slice.start = slice.ter - value.size() - 1; vSlice.push_back(slice); vertex.push_back(index); for (uint i = 0; i < vSlice.size(); ++i) { vSlice[i].index = findInVertex(vSlice[i].index, vertex); vSlice[i].start = findInVertex(vSlice[i].start, vertex); vSlice[i].ter = findInVertex(vSlice[i].ter, vertex); } return vSlice; }
取得模式字符串中的分组后,下面就是引用的替换了,替换过程比较简单,首先查找引用标记,然后用相应的子表达式做替换,如此循环替换下去,直到模式字符串中不再有引用标记为止。
2.2 分支处理
前面一节已经完成了分组处理的过程,下面将需要进行分支处理。对于一个如下形式的模式字符串:
ab((c|d)e|f )g (2.1)
将其转换成状态图形式如下(此处不同考虑重复情况,括号后面跟有重复定义时,不会改变其重复意义):
为了便于描述,定义位置的索引如下图所示:
将模式字符串分成几段,其分段列表如下:
注意:分支中的各分支的起始位置与终止位置相同。
可以看到,将各段按起始位置有序连接,就是图 2.2 的简化版。以图论的观点看,这是有向图无环图(DAG,) 找路径的问题 [8]。但是相对于一般的有向无环图来说,它具有一些特性:
- 只有两个顶点没有出度或者入度,其他的顶点都有出度和入度,并且只有出度的顶点是起始点,只有入度的顶点是终点。
- 此图不可分割。图中各顶点都连接在一起,是一个连通图。
- 此图中的每一个顶点都可以通过特定的路径到达终点。
上面一个例子的 DAG 图如下:
使用邻接表存储,则此 DAG 图的邻接表的结构如下图所示:
以这个图为例,算法处理过程如下表所示:
上述的处理过程,需要对访问的节点进行标记,对于已经回退的节点需要及时清除标记。
2.3 标准模式匹配
前面两节已经进行了预处理过程,已经得到了标准模式字符串的列表。这部分将对标准模式匹配过程进行阐述,标准模式匹配分模式字符串解析和字符串检测两部分,下面将分这两
部分描述。
2.3.1 模式字符串解析
在解析模式字符串之前先剔除不必要的括号,这个过程较为简单,在此略过。分析元字符,将其分成几大类,在头文件中定义其类型码:
1 //模式类型码 2 #define PATTERN_NORMAL 11 //\w \s \d [x] 3 #define PATTERN_NOT 12 //\W \S \D [^x] '.' 4 #define PATTERN_REPEAT 13 //重复类型 5 #define PATTERN_POS_WORD 14 //\b 6 #define PATTERN_POS_ENDLINE 15 //$ 7 #define PATTERN_POS_BENGINLINE 16 //^ 8 #define PATTERN_POS_NOTWORD 17 //\B
对于普通字字符、普通类型、取反类型的字符,表示的是一类字符,将使用字符区间表示可取的字符,其形式如 [[a-z][A-Z]......]。定义字符区间如下:
1 //可行域,即字符区间 [c_s,c_e] 2 struct CharInterval { 3 public: 4 char c_s;//起始 5 char c_e;//终止 6 }; 7 typedef list<CharInterval> CInterval;
对于重复类型,需要指定重复的起始位置、终止位置、最小重复次数、最大重复次数。其中重复类型 *、+ 的最大重复次数是任意次数,用 -1 指定。综合以上考虑,定义模式单元数
据结构如下:
1 struct PNode { 2 public: 3 CInterval charInterval;//当type=PATTERN_POS/PATTERN_REPEAT时为空 4 int type;//类型 PATTERN_NORMAL/PATTERN_NOT/PATTERN_POS/PATTERN_REPEAT 5 int repeat_min;//最小次数 6 int repeat_max;//最大次数 7 int repeat_s;//重复起点 8 int repeat_e;//重复终点 9 int repeat_level;//记录重复次数,在匹配时使用 10 PNode() { 11 this->charInterval = CInterval(); 12 this->type = PATTERN_NORMAL; 13 this->repeat_min = this->repeat_max = 0; 14 this->repeat_e=this->repeat_s=0; 15 this->repeat_level=-1; 16 } 17 };
定义好数据结构,接下来就需要进行模式字符串的解析。模式字符串的解析, 采用预测分析的方法进行解析:
1 uint index = 0; 2 stack<int> stBraket; 3 int bra, ket; 4 bra = -1; 5 ket = -1; 6 while (index < regtxt.size()) { 7 PNode pNode; 8 switch (regtxt[index]) { 9 case '^': 10 ....... 11 case '$': 12 ....... 13 //小括号 14 case '(': 15 ....... 16 case ')': 17 ....... 18 //中括号 19 case '[': 20 ....... 21 //大括号 22 case '{': 23 pNode.type = PATTERN_REPEAT; 24 if (regtxt[index - 1] == ')') { 25 pNode.repeat_s = bra; 26 pNode.repeat_e = ket; 27 } else { 28 pNode.repeat_e = vPattern.size() - 1; 29 pNode.repeat_s = pNode.repeat_e; 30 } 31 bra = -1; 32 ket = -1; 33 index++; 34 int num; 35 num = 0; 36 while (regtxt[index] <= '9' && regtxt[index] >= '0') { 37 num = num * 10 + (regtxt[index] - '0'); 38 index++; 39 } 40 pNode.repeat_min = num; 41 num = 0; 42 switch (regtxt[index]) { 43 case ',': 44 index++; 45 if (regtxt[index] == '}') { 46 pNode.repeat_max = -1; 47 } else { 48 while (regtxt[index] <= '9' && regtxt[index] >= '0') { 49 num = num * 10 + (regtxt[index] - '0'); 50 index++; 51 } 52 pNode.repeat_max = num; 53 } 54 break; 55 case '}': 56 pNode.repeat_max = pNode.repeat_min; 57 break; 58 } 59 vPattern.push_back(pNode); 60 break; 61 case '*': 62 pNode.type = PATTERN_REPEAT; 63 pNode.repeat_min = 0; 64 pNode.repeat_max = -1; 65 66 if (regtxt[index - 1] == ')') { 67 pNode.repeat_s = bra; 68 pNode.repeat_e = ket; 69 } else { 70 pNode.repeat_e = vPattern.size() - 1; 71 pNode.repeat_s = pNode.repeat_e; 72 } 73 bra = -1; 74 ket = -1; 75 vPattern.push_back(pNode); 76 break; 77 case '?': 78 pNode.type = PATTERN_REPEAT; 79 pNode.repeat_min = 0; 80 pNode.repeat_max = 1; 81 82 if (regtxt[index - 1] == ')') { 83 pNode.repeat_s = bra; 84 pNode.repeat_e = ket; 85 } else { 86 pNode.repeat_e = vPattern.size() - 1; 87 pNode.repeat_s = pNode.repeat_e; 88 } 89 bra = -1; 90 ket = -1; 91 vPattern.push_back(pNode); 92 break; 93 case '+': 94 ...... 95 case '.': 96 ....... 97 case '\\'://元字符 98 index++; 99 switch (regtxt[index]) { 100 case 'w': 101 ........ 102 case 'W': 103 ........ 104 case 's': 105 ......... 106 case 'S': 107 ........ 108 case 'd': 109 ......... 110 case 'D': 111 ........ 112 case 'b': 113 ....... 114 case 'B': 115 ..... 116 default: 117 string s; 118 s = "出现不能处理的元字符\\" + regtxt[index]; 119 throw SelfException(s); 120 break; 121 } 122 break; 123 default://常规字符 124 pNode.type = PATTERN_NORMAL; 125 string s; 126 s = regtxt[index]; 127 pNode.charInterval = getCharInterval(s); 128 vPattern.push_back(pNode); 129 break; 130 } 131 index++; 132 } 133 sort(this->vRepeat.begin(), this->vRepeat.end(), greaterRepeat);
2.3.2 字符串的检测
字符串的检测首先要解决的问题是重复项的匹配问题,要求使用贪婪匹配,则从最长重复次数到最短重复次数进行遍历检测。以最外层重复子表达式为界,将表达式分为前中后三部分。字符串的前部则不存重复项,只需依次检测即可。中间部分是重复单元,对其进行遍历检测,在每一次循环中,都是一个标准模式字符串,同样将其分为前中后三部分,如此进行下去,最后分块的结果是只有前部,中间部分、及后部都为空。后部的处理跟中间部分类似。容易知道解决这种问题的最简单的方法是使用递归。
定义一个函数处理模式序列的分块,其定义如下:
1 void Scanner::splitPattern(VecPattern vSource, VecPattern& pre, 2 VecPattern& mid, VecPattern& post) { 3 int len; 4 len = vSource.size(); 5 VecInt flag; 6 for (int i = 0; i < len; ++i) { 7 flag.push_back(0); 8 } 9 for (int i = 0; i < len; ++i) { 10 if (vSource[i].type == PATTERN_REPEAT) { 11 for (int j = vSource[i].repeat_s; j <= vSource[i].repeat_e; ++j) { 12 flag[j] = flag[j] + 1; 13 } 14 } 15 } 16 //前部 17 int i; 18 int k; 19 i = 0; 20 while (i < len) { 21 if (flag[i] == 0) 22 pre.push_back(vSource[i]); 23 else 24 break; 25 i++; 26 } 27 k = i; 28 while (i < len) { 29 if (flag[i] == 0) 30 break; 31 else 32 mid.push_back(vSource[i]); 33 i++; 34 } 35 if(mid.size()>0){ 36 mid.push_back(vSource[i]); 37 i++; 38 } 39 for (uint i = 0; i < mid.size(); ++i) { 40 if (mid[i].type == PATTERN_REPEAT) { 41 mid[i].repeat_e = mid[i].repeat_e - k; 42 mid[i].repeat_s = mid[i].repeat_s - k; 43 } 44 } 45 k = i; 46 while (i < len) { 47 post.push_back(vSource[i]); 48 i++; 49 } 50 for (uint j = 0; j < post.size(); ++j) { 51 if (post[j].type == PATTERN_REPEAT) { 52 post[j].repeat_e = post[j].repeat_e - k; 53 post[j].repeat_s = post[j].repeat_s - k; 54 } 55 } 56 }
前部字符串检测函数定义如下:
1 bool Scanner::pvsMatch(int & beg, VecPattern vPat, string s) { 2 if (vPat.size() == 0) 3 return true; 4 if (beg >= s.size()) 5 return false; 6 uint cache; 7 cache = beg; 8 uint flag; 9 flag = 0; 10 while ( flag < vPat.size()) { 11 bool bBreak; 12 bBreak = false; 13 switch (vPat[flag].type) { 14 case PATTERN_NORMAL: 15 if(cache >= s.size()) 16 return false; 17 if (isInRange(s[cache], vPat[flag].charInterval)) { 18 cache++; 19 flag++; 20 } else { 21 return false; 22 } 23 break; 24 case PATTERN_NOT: 25 if(cache >= s.size()) 26 return false; 27 if (isInRange(s[cache], vPat[flag].charInterval)) { 28 return false; 29 } else { 30 cache++; 31 flag++; 32 } 33 break; 34 case PATTERN_POS_BENGINLINE: 35 if (isBeginOfLine(cache, s)) { 36 flag++; 37 } else 38 return false; 39 break; 40 case PATTERN_POS_ENDLINE: 41 if (cache==s.size()) 42 flag++; 43 else if(s[cache]=='\n') { 44 flag++; 45 } else 46 return false; 47 break; 48 case PATTERN_POS_NOTWORD: 49 if (isWordBoder(cache, s)) { 50 return false; 51 } else 52 flag++; 53 ; 54 break; 55 case PATTERN_POS_WORD: 56 if (isWordBoder(cache, s)) { 57 flag++; 58 } else 59 return false; 60 break; 61 case PATTERN_REPEAT: 62 throw SelfException("此处不能处理重复项"); 63 break; 64 default: 65 throw SelfException("未知类型项,检查type赋值语句"); 66 break; 67 } 68 } 69 if(flag==vPat.size()) 70 beg = cache; 71 return true; 72 }
中部匹配函数定义如下:
1 bool Scanner::midMatch(int & beg, int min,int max, VecPattern vP, string s) { 2 if(vP.size()==0) 3 return true; 4 int l,i; 5 int first; 6 first=beg; 7 if(max==-1) 8 l=s.size()-beg; 9 else 10 l=max; 11 while(l>=min){ 12 for(i=0;i<l;++i) 13 if(!postMatch(first,vP,s)) 14 break; 15 if(i==l) 16 { 17 beg=first; 18 return true; 19 } 20 else 21 first=beg; 22 l--; 23 } 24 if(l<min) 25 return false; 26 return false; 27 }
后部匹配过程定义如下:
1 bool Scanner::postMatch(int & beg, VecPattern vP, string s) { 2 int first=beg; 3 if(vP.size()==0) 4 return true; 5 VecPattern vPvs, vPost, vMid; 6 //TODO 分块 vPvs,vPost,vMid 7 splitPattern(vP,vPvs,vMid,vPost); 8 if(vMid.size()==0){ 9 if(pvsMatch(first,vPvs,s)){ 10 beg=first; 11 return true; 12 } 13 } 14 else 15 if(pvsMatch(first,vPvs,s)){ 16 PNode p(vMid.back()); 17 vMid.pop_back(); 18 if(midMatch(first,p.repeat_min,p.repeat_max,vMid,s)) 19 { 20 if(postMatch(first,vPost,s)) 21 { 22 beg=first; 23 return true; 24 } 25 else 26 return false; 27 } 28 else 29 return false; 30 }else 31 return false;; 32 }
上述三个程序段分别定义了三个部分的匹配过程,其中 postMatch 是函数调用的起点,然后进行递归调用。这样就实现了标准模式字符串的匹配过程。