s1mplesama

导航

KMP算法

最常见的枚举算法:

当我们要检测一个字符串是否为另一个的字符串的子串的时候,我们可以从两个字符串的头开始一个一个进行比对:

   检测abd是否为abcabdc的子串:

    第一步,将两个字符串从头开始,依次比较每一个字符:

      

    发现第三个字符不相等,于是再进行第二次比对:

      

    这次第一个字符就不相等,继续进行第三次比对……

    这种方法确实可以,但是显而易见,会造成时间上的浪费,于是有了后来的KMP算法。

 

 

 KMP算法:

在了解KMP算法之前,我们先来了解一下一个字符串的前缀和后缀,

  字符串的前缀就是除了最后一个字符以外,全部的头部组合;

  相应的,后缀就是除了第一个字符以外,全部的尾部组合。

 

给定如下字符串:”ABCDABD“,可以得到:

第1个字符  - "A"的前缀和后缀都为空集,共有元素的长度为0;

前2个字符  - "AB"的前缀为[A],后缀为[B],共有元素的长度为0;

前3个字符  - "ABC"的前缀为[A, AB],后缀为[BC, C],共有元素的长度0;

前4个字符  - "ABCD"的前缀为[A, AB, ABC],后缀为[BCD, CD, D],共有元素的长度为0;

前5个字符  - "ABCDA"的前缀为[A, AB, ABC, ABCD],后缀为[BCDA, CDA, DA, A],共有元素为"A",长度为1;

前6个字符  - "ABCDAB"的前缀为[A, AB, ABC, ABCD, ABCDA],后缀为[BCDAB, CDAB, DAB, AB, B],共有元素为"AB",长度为2;

前7个字符  - "ABCDABD"的前缀为[A, AB, ABC, ABCD, ABCDA, ABCDAB],后缀为[BCDABD, CDABD, DABD, ABD, BD, D],共有元素的长度为0。

 

我们将上面得到的7个数合并成一个数组:

[0,0,0,0,1,2,0]

这个数组后面将要拿来使用。

 

假设我们还有一个长的字符串:

  字符串:“BBC ABCDAB ABCDABCDABDE”

  

  我们将两个字符串首部对齐开始比较,如果不匹配则较短的字符串右移1位:

  第一次比较:

  

  第二次比较:

  

  直到第五次比较:

  

  我们发现两个字符串的前6个字符都相等,并且可以看见在'D'之前,长度为6的字符串“ABCDAB”,我们求的前缀和后缀有相同元素“AB”,长度为2

  

  我们可以不向右移动一位,而是将左侧"AB"的位置直接移动到右侧"AB"的位置。此时我们需要右移6(D之前字符串的长度)-2(相同前后缀的长度)=4位即可,这样大大减少了我们比较的次数:

  

  移动到此处再从相同字符串"AB"的后一位字符开始比较

  然后发现不匹配,继续右移2(C之前字符串的长度)-0("AB"没有相同的前后缀)=2位。

   

 

  然后又是从第一位开始就不相等,继续右移一位:

  

  和之前遇到了相同的情况,还是右移4位:

  

  发现完全匹配。

 

  总结:先求出一个前后缀相同元素个数组成的数组arr[],其中arr[i]代表前i+1个字符组成的字符串中,最大相同前后缀

     在进行字符串匹配时,从0开始,前面n个字符都匹配,第n+1(索引为n)的字符与母串不匹配,

     则将该字符串右移n-arr[n]位后再进行匹配。(为了将前缀移动到后缀原来的位置)

 

  之后会带来KMP算法的代码实现与详细解释。

    

 

posted on 2018-12-02 00:57  s1mplesama  阅读(137)  评论(0编辑  收藏  举报