kmp算法的理解与分析及优化

　　kmp实际就是一种字符串查找算法，一般数据的时候我们可以直接暴力匹配但对于大数据是行不通的，接下来我以s为母串p为目标字符串。

　　i、j的意思dddd。

　　如上图只有最后一位p[6]匹配失败按照传统暴力办法则要往后移动一位再继续匹配，就是这样

　　这样是十分浪费时间的因为在之前的匹配中我们已经知道s[5]=p[1]，而p[1]肯定不等于p[0]所以s[5]肯定不等于p[0]，而kmp就是利用之前已经

部分匹配这个有效信息，保持i 不回溯，通过修改j 的位置，让模式串尽量地移动到有效的位置。

　　KMP:

　　先说定义吧什么是KMP,

　　假设现在文本串S匹配到 i 位置，模式串P匹配到 j 位置

如果j = -1，或者当前字符匹配成功（即S[i] == P[j]），都令i++，j++，继续匹配下一个字符；
如果j != -1，且当前字符匹配失败（即S[i] != P[j]），则令 i 不变，j = next[j]。此举意味着失配时，模式串P相对于文本串S向右移动了j - next [j] 位。
换言之，当匹配失败时，模式串向右移动的位数为：失配字符所在位置 - 失配字符对应的next 值，即移动的实际位数为：j - next[j]，且此值大于等于1。

　　而next数组的含义就是比如next[j]表示的就是在长度为j-1的p目标字符串中最长的相同前缀和后缀长度。

　　也就是说在上图得情况中我们没必要这么一步一步往后推而是这样

　　因为next数组的定义就是长度为j-1的目标字符串最大相同前缀后缀长度，所以往后移动j-next[j]就可以让其移动到一个效率跟高的位置，为什么呢，因为

在我们匹配的时候已经知道前j-1是已经匹配好的，那我们以前j-1字符串的前缀为基点移动到和他相同的最长后缀就可以了，dddd。

　　思路很好理解问题就是next数组该怎么求　

　　next数组：

　　next数组的定义就是next[j]表示的就是在长度为j-1的p目标字符串中最长的相同前缀和后缀长度，所以我们只需要找到每个位置最长前缀后缀，然后整体

右移一位赋初值为-1就可以了。这就是求next的思路，继续分析，假设我们已经知道了next[j]去求next[j+1]，假设next[j]就等于k，也就是在j-1的目标字符串中

前缀和后缀相同最长长度为k，那我们只需要去比较p[k]和p[j]就可以了，因为p0~pk-1是和pj-k~pj-1是相同的，如果pk==pj那么next[j+1]=next[j]+1=k+1,那假如不同呢？

　　不同的情况我们这样去理解：

　　先说结论就是去递归k=next[k]直到pk‘==pj然后next [j + 1] = k’ + 1 = next [k' ] + 1，或者找不到就为0。那为什么是去递归k=next[k]呢，我们继续从next的定义出发，对于pj+1目标字符串来说他只是p[k]!=p[j]但是p0~pk-1是和pj-k~pj-1是相同的，从效率上讲我们只需要去找一个和p0~pk-1相同的前缀然后最后一位和pj相同就是我们要的值，而和p0~pk-1相同的前缀就是p0~p[next[k]]-1，不懂可以再看一下next数组的定义，所以我们只需要去比较p[next[k]]和p[j]是否相同就可以了相同就next [j + 1] = k’ + 1 = next [k' ] + 1，不同就继续递归索引直到没有然后值就是0。

　　代码：

#include<stdio.h>
#include<string.h>
char a[1000005],b[1000005];
int next[1000005];
void getnext(int len);
int kmp(int l1,int l2);
int main(){
    int sum;
    while(~scanf("%s %s",&a,&b)){
        sum=kmp(strlen(a),strlen(b));
        if(sum>=0)
        printf("%d\n",sum);
        else
        printf("-1\n");
    }
    return 0;
} 
void getnext(int len){
    int i=0,j=-1;
    next[0]=-1;
    while (i < len)
    {
        if (j == -1 || b[i] == b[j])
        {
            ++i;
            ++j;
            next[i] = j;
  
        }    
        
        else
            j=next[j];
    }
}
int kmp(int l1,int l2){
    int i=0,j=0;
    getnext(l2);
    while(i<l1&&j<l2){
        if(j==-1||a[i]==b[j]){
            i++;
            j++;    
        }
        else
            j=next[j];    
    }
    if(j>=l2)
        return i-l2;
    else 
        return -1;
}

　　但其实这个代码还有一点点小问题，就是这种情况

　　按照我们kmp的作用来说不应该出现这种失匹的情况，为什么会发生呢，问题出在不该出现p[j] = p[ next[j] ]。为什么呢？理由是：当p[j] != s[i] 时，下次匹配必然是p[ next [j]] 跟s[i]匹配，如果p[j] = p[ next[j] ]，必然导致后一步匹配失败（因为p[j]已经跟s[i]失配，然后你还用跟p[j]等同的值p[next[j]]去跟s[i]匹配，很显然，必然失配），所以不能允许p[j] = p[ next[j ]]。如果出现了p[j] = p[ next[j] ]咋办呢？如果出现了，则需要再次递归，即令next[j] = next[ next[j] ]。

　　所以优化一下的代码就是：

#include<stdio.h>
#include<string.h>
char a[1000005],b[1000005];
int next[1000005];
void getnext(int len);
int kmp(int l1,int l2);
int main(){
    int sum;
    while(~scanf("%s %s",&a,&b)){
        sum=kmp(strlen(a),strlen(b));
        if(sum>=0)
        printf("%d\n",sum);
        else
        printf("-1\n");
    }
    return 0;
} 
void getnext(int len){
    int i=0,j=-1;
    next[0]=-1;
    while (i < len)
    {
        if (j == -1 || b[i] == b[j])
        {
            ++i;
            ++j;
            if(b[i]!=b[j])
                next[i] = j;
            else
                next[i]=next[j];    
        }    
        
        else
            j=next[j];
    }
}
int kmp(int l1,int l2){
    int i=0,j=0;
    getnext(l2);
    while(i<l1&&j<l2){
        if(j==-1||a[i]==b[j]){
            i++;
            j++;    
        }
        else
            j=next[j];    
    }
    if(j>=l2)
        return i-l2;
    else 
        return -1;
}

posted on 2021-01-17 19:18 mibbp 阅读(478) 评论(0) 收藏举报

刷新页面返回顶部

mibbp

kmp算法的理解与分析及优化

导航

公告