浅谈KMP
\(KMP\)算法是一种改进的字符串匹配算法,由\(D.E.Knuth\),\(J.H.Morris\)和\(V.R.Pratt\)同时发现,因此人们称它为克努特——莫里斯——普拉特操作(简称\(KMP\)算法)。\(KMP\)算法的关键是利用匹配失败后的信息,尽量减少模式串与主串的匹配次数以达到快速匹配的目的。具体实现就是实现一个\(next\)函数,函数本身包含了模式串的局部匹配信息。时间复杂度\(O(m+n)\)。
求\(next\)数组
\(next\)是\(C++11\)的关键字,为了养成良好习惯,接下来写作\(nxt\)。
\(nxt\)数组在模式串(就是准备在另一个串里找出它位置的串)上求,\(nxt_i\)表示模式串\([1,i]\)中最长的长度不等于\(i\)的相等的前缀和后缀的长度。
比如\(aaaaa\)的\(nxt_5\)就是\(4\),\(abcabc\)的\(nxt_2\)是\(1\),\(nxt_6\)是\(3\)。特别的,\(nxt_1=0\)
模式串的\(nxt\)数组怎么求呢?首先假设我们已经求出了\([1,i-1]\)的\(nxt\)。那么\(nxt_i\)就可以由之前的\(nxt\)的到。
\(1\)、令\(j\)等于\(nxt_{i-1}\)
\(2\)、判断\(s[j+1]\)是否等于\(s[i]\),如果相等那么\(nxt_i=nxt_{i-1}+1\),否则我们就令\(j=nxt_j\),继续判断。
3、时间复杂度分析:由于我们每次\(nxt\)数组顶多会被上一个多\(1\),那么总的增加量就是\(O(n)\)的,在\(j=nxt_j\)这个步骤中,总的减少量显然也是不会超过\(O(n)\)的。所以求\(nxt\)数组的时间复杂度是\(O(n)\)的。
模式串匹配
首先我们来看看最暴力的写法。
for(int i=1;i<=n-m+1;i++) {
bool bo=1;
for(int j=1;j<=m;j++)
if(s[i+j-1]!=c[j]) {
bo=0;break;
}
if(bo) {printf("%d\n",i);break;}
}
\(s\)是母串,\(c\)是模式串,这段代码会找到模式串在母串中出现的第一个位置。
由于每次匹配失败之后,到母串的下一个位置都会从头开始扫描模式串,所以这个复杂度是\(O(nm)\)的。
但是假如我们求出了模式串的\(nxt\)数组之后,我们可以记录模式串目前与母串匹配到哪一位来了,如果失配就跳\(nxt\),因为\([1,nxt_i]\)肯定和\([1,i]\)最后\(nxt_i\)位相同,所以我们可以直接从\(nxt_i\)开始重新匹配。由于匹配成功增加的量最多是\(O(n)\)的,减少的量也不会超过\(O(n)\),所以匹配的复杂度就是\(O(n)\)的。
模板题:https://www.luogu.org/problemnew/show/P3375
时间复杂度:\(O(n+m)\)
空间复杂度:\(O(m)\)
代码如下:
#include <cstdio>
#include <cstring>
using namespace std;
const int maxn=1e6+5;
int n,m;
int nxt[maxn];
char s1[maxn],s2[maxn];
void make_nxt() {
for(int i=2,j=0;i<=m;i++) {
while(j&&s2[j+1]!=s2[i])j=nxt[j];
if(s2[j+1]==s2[i])j++;nxt[i]=j;
}
}
int main() {
scanf("%s%s",s1+1,s2+1);
n=strlen(s1+1),m=strlen(s2+1);
make_nxt();
for(int j=0,i=1;i<=n;i++) {
while(j&&s2[j+1]!=s1[i])j=nxt[j];
if(s2[j+1]==s1[i])j++;
if(j==m) {printf("%d\n",i-j+1);j=nxt[j];}
}
for(int i=1;i<=m;i++)
printf("%d ",nxt[i]);
return 0;
}