浅谈KMP

\(KMP\)算法是一种改进的字符串匹配算法，由\(D.E.Knuth\)，\(J.H.Morris\)和\(V.R.Pratt\)同时发现，因此人们称它为克努特——莫里斯——普拉特操作（简称\(KMP\)算法）。\(KMP\)算法的关键是利用匹配失败后的信息，尽量减少模式串与主串的匹配次数以达到快速匹配的目的。具体实现就是实现一个\(next\)函数，函数本身包含了模式串的局部匹配信息。时间复杂度\(O(m+n)\)。

求\(next\)数组

\(next\)是\(C++11\)的关键字，为了养成良好习惯，接下来写作\(nxt\)。

\(nxt\)数组在模式串(就是准备在另一个串里找出它位置的串)上求，\(nxt_i\)表示模式串\([1,i]\)中最长的长度不等于\(i\)的相等的前缀和后缀的长度。

比如\(aaaaa\)的\(nxt_5\)就是\(4\)，\(abcabc\)的\(nxt_2\)是\(1\)，\(nxt_6\)是\(3\)。特别的，\(nxt_1=0\)

模式串的\(nxt\)数组怎么求呢？首先假设我们已经求出了\([1,i-1]\)的\(nxt\)。那么\(nxt_i\)就可以由之前的\(nxt\)的到。

\(1\)、令\(j\)等于\(nxt_{i-1}\)

\(2\)、判断\(s[j+1]\)是否等于\(s[i]\)，如果相等那么\(nxt_i=nxt_{i-1}+1\)，否则我们就令\(j=nxt_j\)，继续判断。

3、时间复杂度分析：由于我们每次\(nxt\)数组顶多会被上一个多\(1\)，那么总的增加量就是\(O(n)\)的，在\(j=nxt_j\)这个步骤中，总的减少量显然也是不会超过\(O(n)\)的。所以求\(nxt\)数组的时间复杂度是\(O(n)\)的。

模式串匹配

首先我们来看看最暴力的写法。

for(int i=1;i<=n-m+1;i++) {
    bool bo=1;
    for(int j=1;j<=m;j++)
        if(s[i+j-1]!=c[j]) {
            bo=0;break;
		}
    if(bo) {printf("%d\n",i);break;}
}

\(s\)是母串，\(c\)是模式串，这段代码会找到模式串在母串中出现的第一个位置。

由于每次匹配失败之后，到母串的下一个位置都会从头开始扫描模式串，所以这个复杂度是\(O(nm)\)的。

但是假如我们求出了模式串的\(nxt\)数组之后，我们可以记录模式串目前与母串匹配到哪一位来了，如果失配就跳\(nxt\)，因为\([1,nxt_i]\)肯定和\([1,i]\)最后\(nxt_i\)位相同，所以我们可以直接从\(nxt_i\)开始重新匹配。由于匹配成功增加的量最多是\(O(n)\)的，减少的量也不会超过\(O(n)\)，所以匹配的复杂度就是\(O(n)\)的。

模板题：https://www.luogu.org/problemnew/show/P3375

时间复杂度：\(O(n+m)\)

空间复杂度：\(O(m)\)

代码如下：

#include <cstdio>
#include <cstring>
using namespace std;

const int maxn=1e6+5;

int n,m;
int nxt[maxn];
char s1[maxn],s2[maxn];

void make_nxt() {
	for(int i=2,j=0;i<=m;i++) {
		while(j&&s2[j+1]!=s2[i])j=nxt[j];
		if(s2[j+1]==s2[i])j++;nxt[i]=j;
	}
}

int main() {
	scanf("%s%s",s1+1,s2+1);
	n=strlen(s1+1),m=strlen(s2+1);
	make_nxt();
	for(int j=0,i=1;i<=n;i++) {
		while(j&&s2[j+1]!=s1[i])j=nxt[j];
		if(s2[j+1]==s1[i])j++;
		if(j==m) {printf("%d\n",i-j+1);j=nxt[j];}
	}
	for(int i=1;i<=m;i++)
		printf("%d ",nxt[i]);
	return 0;
}

posted @ 2019-02-26 16:20 AKMer 阅读(388) 评论(0) 收藏举报

刷新页面返回顶部

AKMer

赌上剑与心

浅谈KMP

求\(next\)数组

模式串匹配

公告