KMP算法
最常见的枚举算法:
当我们要检测一个字符串是否为另一个的字符串的子串的时候,我们可以从两个字符串的头开始一个一个进行比对:
检测abd是否为abcabdc的子串:
第一步,将两个字符串从头开始,依次比较每一个字符:
发现第三个字符不相等,于是再进行第二次比对:
这次第一个字符就不相等,继续进行第三次比对……
这种方法确实可以,但是显而易见,会造成时间上的浪费,于是有了后来的KMP算法。
KMP算法:
在了解KMP算法之前,我们先来了解一下一个字符串的前缀和后缀,
字符串的前缀就是除了最后一个字符以外,全部的头部组合;
相应的,后缀就是除了第一个字符以外,全部的尾部组合。
给定如下字符串:”ABCDABD“,可以得到:
第1个字符 - "A"的前缀和后缀都为空集,共有元素的长度为0;
前2个字符 - "AB"的前缀为[A],后缀为[B],共有元素的长度为0;
前3个字符 - "ABC"的前缀为[A, AB],后缀为[BC, C],共有元素的长度0;
前4个字符 - "ABCD"的前缀为[A, AB, ABC],后缀为[BCD, CD, D],共有元素的长度为0;
前5个字符 - "ABCDA"的前缀为[A, AB, ABC, ABCD],后缀为[BCDA, CDA, DA, A],共有元素为"A",长度为1;
前6个字符 - "ABCDAB"的前缀为[A, AB, ABC, ABCD, ABCDA],后缀为[BCDAB, CDAB, DAB, AB, B],共有元素为"AB",长度为2;
前7个字符 - "ABCDABD"的前缀为[A, AB, ABC, ABCD, ABCDA, ABCDAB],后缀为[BCDABD, CDABD, DABD, ABD, BD, D],共有元素的长度为0。
我们将上面得到的7个数合并成一个数组:
[0,0,0,0,1,2,0]
这个数组后面将要拿来使用。
假设我们还有一个长的字符串:
字符串:“BBC ABCDAB ABCDABCDABDE”
我们将两个字符串首部对齐开始比较,如果不匹配则较短的字符串右移1位:
第一次比较:
第二次比较:
直到第五次比较:
我们发现两个字符串的前6个字符都相等,并且可以看见在'D'之前,长度为6的字符串“ABCDAB”,我们求的前缀和后缀有相同元素“AB”,长度为2
我们可以不向右移动一位,而是将左侧"AB"的位置直接移动到右侧"AB"的位置。此时我们需要右移6(D之前字符串的长度)-2(相同前后缀的长度)=4位即可,这样大大减少了我们比较的次数:
移动到此处再从相同字符串"AB"的后一位字符开始比较
然后发现不匹配,继续右移2(C之前字符串的长度)-0("AB"没有相同的前后缀)=2位。
然后又是从第一位开始就不相等,继续右移一位:
和之前遇到了相同的情况,还是右移4位:
发现完全匹配。
总结:先求出一个前后缀相同元素个数组成的数组arr[],其中arr[i]代表前i+1个字符组成的字符串中,最大相同前后缀
在进行字符串匹配时,从0开始,前面n个字符都匹配,第n+1(索引为n)的字符与母串不匹配,
则将该字符串右移n-arr[n]位后再进行匹配。(为了将前缀移动到后缀原来的位置)
之后会带来KMP算法的代码实现与详细解释。
posted on 2018-12-02 00:57 s1mplesama 阅读(137) 评论(0) 编辑 收藏 举报