打赏

图解字符串的朴素模式匹配算法

复习串的朴素模式匹配算法

模式匹配 :

子串定位运算,在主串中找出子串出现的位置。

在串匹配中,将主串 S 称为目标(串),子串 T 称为模式(串)。如果在主串 S 中能够找到子串 T, 则称匹配成功,返回 第一个 和 子串 T 中 第一个字符 相等 的 字符 在主串 S 中的 序号,否则,称匹配失败,返回 0。 

算法思想:

从主串 S 的第 pos 个字符起和模式 T 的第一个字符比较之,若相同,则两者顺次的去比较后续的每一个字符,否则从主串 S 的下一个字符起再重新和模式 T 的字符比较之。 (为什么说它朴素,就是因为笨,因子串和主串的每躺比较,当发现匹配不对,则主串的指针要回溯到上次开始比较的字符处的下一个字符处,去重新比一遍!费劲)。

 

详细图解;

给定两个字符串,S 和 T,长度已知。

    -》     

初始 ab 相同,可以顺次比较,当3处,不匹配。则j 回溯到T1处,i 回到S 的下一个字符 S2处,从新开始和 T1比较。

    -》   

b 和 a又不匹配,j 回到1处(位置不变),i 回到下一个字符,也就是3处,继续比,匹配,顺次比较之。直到下面;

       

模式串的 j再次回溯到1,i 到4,继续比较,不匹配,T 的 j 继续回溯1,S的 i 继续到下一个字符,继续比较,直到 i=6,匹配

     

继续顺次比较,直到 T 比完,也就是在 j=5,i=10之后,j、i 继续++的时候,要判断出比完了,如图。这是整个过程。算法重要的是思想,理解思想,是第一步,脑子里有清晰的思路和完美的情景再现,那么代码实现都是水到渠成的事情。

 

用代码编写如下:

 1 int getLength(char *str)
 2 {
 3     int i = 0;
 4     
 5     while ('\0' != str[i]) {
 6         i++;
 7     }
 8     
 9     return i;
10 }
11 
12 int strCompare(char *strMain, char *strSub, int index)
13 {
14     int iMain = index;
15     int jSub = 0;
16     int lenMain = getLength(strMain);
17     int lenSub = getLength(strSub);
18     
19     while ((iMain >= 0 && iMain <= lenMain - 1) && ((jSub >= 0 && jSub <= lenSub - 1))){
20         if (strMain[iMain] == strSub[jSub]) {
21             iMain++;
22             jSub++;
23         }else{
24             iMain = iMain - jSub + 1;//回到主串的下一个位置起,开始比较,每次重新开始顺次比较, ij 走的长度是一样的,如果从0开始,那么相减之后,故+1到下一位,如果是从1开始存,那么+2到下一位。
25             jSub = 0;
26         }
27     }
28     //如果匹配 ok,肯定子串先比完。
29     if (jSub > lenSub - 1) {
30         return iMain - lenSub;//得到的就是匹配 ok 后,主串里第一个和模式串第一个字符匹配的字符的位置
31     }else{
32         return 0;//匹配失败
33     }
34 }
35 
36 int main(int argc, const char * argv[]) {
37     char *str1 = "sawtsafvda";
38     char *str2 = "safv";
39     
40     int i = strCompare(str1, str2, 0);
41     
42     printf("%d\n", i);
43     
44     return 0;
45 }

4

Program ended with exit code: 0

 

分析时间复杂度

最坏的时候,最后匹配成功,比如,0000000000001 和 00001 ,比较每次都在00001的1开始不匹配,指针回溯到开头,主串也回溯 i-j+1,若模式子串的长度是m,目标串的长度是n,这时最坏的情况是每遍比较都在最后出现不等,即每遍最多比较m次,最多比较n-m+1遍,总的比较次数最多为m(n-m+1),因此朴素的模式匹配算法为 o(m*n),虽然,朴素的模式匹配,时间复杂度比较大,但是实际中,一般情况(除非模式串和主串之间存在很多的部分匹配的时候,因为此时每遍需要比较的次数很多,相乘不能近似),真正的执行时间是近似于o(n+m )的,故当今仍然有他的用处!

 

欢迎关注

dashuai的博客是终身学习践行者,大厂程序员,且专注于工作经验、学习笔记的分享和日常吐槽,包括但不限于互联网行业,附带分享一些PDF电子书,资料,帮忙内推,欢迎拍砖!

 

posted @ 2015-03-09 08:47  dashuai的博客  阅读(4994)  评论(0编辑  收藏  举报
Flag Counter欢迎关注微信公众号