图解字符串的朴素模式匹配算法

复习串的朴素模式匹配算法

模式匹配：

子串定位运算，在主串中找出子串出现的位置。

在串匹配中，将主串 S 称为目标(串)，子串 T 称为模式(串)。如果在主串 S 中能够找到子串 T，则称匹配成功，返回第一个和子串 T 中第一个字符相等的字符在主串 S 中的序号，否则，称匹配失败，返回 0。

算法思想：

从主串 S 的第 pos 个字符起和模式 T 的第一个字符比较之，若相同，则两者顺次的去比较后续的每一个字符，否则从主串 S 的下一个字符起再重新和模式 T 的字符比较之。（为什么说它朴素，就是因为笨，因子串和主串的每躺比较，当发现匹配不对，则主串的指针要回溯到上次开始比较的字符处的下一个字符处，去重新比一遍！费劲）。

详细图解；

给定两个字符串，S 和 T，长度已知。

-》

初始 ab 相同，可以顺次比较，当3处，不匹配。则j 回溯到T1处，i 回到S 的下一个字符 S2处，从新开始和 T1比较。

-》　　

b 和 a又不匹配，j 回到1处（位置不变），i 回到下一个字符，也就是3处，继续比，匹配，顺次比较之。直到下面；

模式串的 j再次回溯到1，i 到4，继续比较，不匹配，T 的 j 继续回溯1，S的 i 继续到下一个字符，继续比较，直到 i=6，匹配

继续顺次比较，直到 T 比完，也就是在 j=5，i=10之后，j、i 继续++的时候，要判断出比完了，如图。这是整个过程。算法重要的是思想，理解思想，是第一步，脑子里有清晰的思路和完美的情景再现，那么代码实现都是水到渠成的事情。

用代码编写如下：

 1 int getLength(char *str)
 2 {
 3     int i = 0;
 4     
 5     while ('\0' != str[i]) {
 6         i++;
 7     }
 8     
 9     return i;
10 }
11 
12 int strCompare(char *strMain, char *strSub, int index)
13 {
14     int iMain = index;
15     int jSub = 0;
16     int lenMain = getLength(strMain);
17     int lenSub = getLength(strSub);
18     
19     while ((iMain >= 0 && iMain <= lenMain - 1) && ((jSub >= 0 && jSub <= lenSub - 1))){
20         if (strMain[iMain] == strSub[jSub]) {
21             iMain++;
22             jSub++;
23         }else{
24             iMain = iMain - jSub + 1;//回到主串的下一个位置起，开始比较，每次重新开始顺次比较， ij 走的长度是一样的，如果从0开始，那么相减之后，故+1到下一位，如果是从1开始存，那么+2到下一位。
25             jSub = 0;
26         }
27     }
28     //如果匹配 ok，肯定子串先比完。
29     if (jSub > lenSub - 1) {
30         return iMain - lenSub;//得到的就是匹配 ok 后，主串里第一个和模式串第一个字符匹配的字符的位置
31     }else{
32         return 0;//匹配失败
33     }
34 }
35 
36 int main(int argc, const char * argv[]) {
37     char *str1 = "sawtsafvda";
38     char *str2 = "safv";
39     
40     int i = strCompare(str1, str2, 0);
41     
42     printf("%d\n", i);
43     
44     return 0;
45 }

Program ended with exit code: 0

分析时间复杂度

最坏的时候，最后匹配成功，比如，0000000000001 和 00001 ，比较每次都在00001的1开始不匹配，指针回溯到开头，主串也回溯 i-j+1，若模式子串的长度是m,目标串的长度是n，这时最坏的情况是每遍比较都在最后出现不等，即每遍最多比较m次，最多比较n-m+1遍，总的比较次数最多为m(n-m+1)，因此朴素的模式匹配算法为 o（m*n），虽然，朴素的模式匹配，时间复杂度比较大，但是实际中，一般情况（除非模式串和主串之间存在很多的部分匹配的时候，因为此时每遍需要比较的次数很多，相乘不能近似），真正的执行时间是近似于o（n+m ）的，故当今仍然有他的用处！

欢迎关注

dashuai的博客是终身学习践行者，大厂程序员，且专注于工作经验、学习笔记的分享和日常吐槽，包括但不限于互联网行业，附带分享一些PDF电子书，资料，帮忙内推，欢迎拍砖！

posted @ 2015-03-09 08:47 dashuai的博客阅读(4994) 评论(0) 编辑收藏举报

刷新页面返回顶部

图解字符串的朴素模式匹配算法

欢迎关注

公告