KMP算法

最常见的枚举算法：

当我们要检测一个字符串是否为另一个的字符串的子串的时候,我们可以从两个字符串的头开始一个一个进行比对:

　　检测abd是否为abcabdc的子串:

　　　　第一步,将两个字符串从头开始,依次比较每一个字符:

　　　　发现第三个字符不相等,于是再进行第二次比对:

　　　　这次第一个字符就不相等,继续进行第三次比对……

　　　　这种方法确实可以，但是显而易见，会造成时间上的浪费，于是有了后来的KMP算法。

KMP算法：

在了解KMP算法之前，我们先来了解一下一个字符串的前缀和后缀，

　　字符串的前缀就是除了最后一个字符以外，全部的头部组合；

　　相应的，后缀就是除了第一个字符以外，全部的尾部组合。

给定如下字符串：”ABCDABD“，可以得到：

第1个字符　　－　"A"的前缀和后缀都为空集，共有元素的长度为0；

前2个字符　　－　"AB"的前缀为[A]，后缀为[B]，共有元素的长度为0；

前3个字符　　－　"ABC"的前缀为[A, AB]，后缀为[BC, C]，共有元素的长度0；

前4个字符　　－　"ABCD"的前缀为[A, AB, ABC]，后缀为[BCD, CD, D]，共有元素的长度为0；

前5个字符　　－　"ABCDA"的前缀为[A, AB, ABC, ABCD]，后缀为[BCDA, CDA, DA, A]，共有元素为"A"，长度为1；

前6个字符　　－　"ABCDAB"的前缀为[A, AB, ABC, ABCD, ABCDA]，后缀为[BCDAB, CDAB, DAB, AB, B]，共有元素为"AB"，长度为2；

前7个字符　　－　"ABCDABD"的前缀为[A, AB, ABC, ABCD, ABCDA, ABCDAB]，后缀为[BCDABD, CDABD, DABD, ABD, BD, D]，共有元素的长度为0。

我们将上面得到的7个数合并成一个数组：

[0,0,0,0,1,2,0]

这个数组后面将要拿来使用。

假设我们还有一个长的字符串：

　　字符串：“BBC ABCDAB ABCDABCDABDE”

　　我们将两个字符串首部对齐开始比较，如果不匹配则较短的字符串右移1位:

　　第一次比较：

　　第二次比较：

　　直到第五次比较：

　　我们发现两个字符串的前6个字符都相等，并且可以看见在'D'之前，长度为6的字符串“ABCDAB”，我们求的前缀和后缀有相同元素“AB”，长度为2

　　我们可以不向右移动一位，而是将左侧"AB"的位置直接移动到右侧"AB"的位置。此时我们需要右移6（D之前字符串的长度）-2（相同前后缀的长度）=4位即可，这样大大减少了我们比较的次数：

　　移动到此处再从相同字符串"AB"的后一位字符开始比较

　　然后发现不匹配，继续右移2（C之前字符串的长度）-0（"AB"没有相同的前后缀）=2位。

　　然后又是从第一位开始就不相等，继续右移一位：

　　和之前遇到了相同的情况，还是右移4位：

　　发现完全匹配。

　　总结：先求出一个前后缀相同元素个数组成的数组arr[]，其中arr[i]代表前i+1个字符组成的字符串中，最大相同前后缀

　　　　　在进行字符串匹配时，从0开始，前面n个字符都匹配，第n+1（索引为n）的字符与母串不匹配，

　　　　　则将该字符串右移n-arr[n]位后再进行匹配。（为了将前缀移动到后缀原来的位置）

　　之后会带来KMP算法的代码实现与详细解释。

posted on 2018-12-02 00:57 s1mplesama 阅读(137) 评论(0) 编辑收藏举报

刷新页面返回顶部

s1mplesama

导航

公告