KMP算法

模板题：

给出两个字符串A和B，其中A为B的子串，求出A在B中所有出现的次数。

首先，字符串匹配的朴素算法就是枚举B串的每一个元素，然后当 $B[i]$ 和 $A[1]$ 相等时，在枚举 $B[i+1]$ 和 $A[2]$...依次类推，直到A和B的子串完全匹配是输出A所在的位置就OK啦

But，它的时间复杂度是 $O(nm)$（n，m是字符串A,B的长度）

当n，m超过一定程度是就要T了

所以KMP出现了

KMP算法是一种可以在线性时间内，判断字符串A是否为字符串B的子串，并求出A在B出现的位置的神奇算法（反正很高级就好了）

不过字符串Hash也可以在 $O(n)$ 的时间内预处理，并且支持 $O(1)$ 查询，不过好像莫得KMP方便

下面是KMP与暴力的区别

在 $B[i]$ 和 $A[j]$ 匹配失败后，i只向后移动了一个，这就浪费了很多时间，所以KMP出现了

我们可以预处理出一个next数组，记录匹配失败后下一次的匹配的 $i$（如何处理等会讲），然后就可以跳过中间的无用的匹配，就可以节约很多时间

这就好比打游戏的时候，你在Boss关输了，本来要重新开始的，但是你在中途存档了，就可以直接跳关，节约时间

（算阶还有一个 $f[i]$ 表示B中以 $i$ 结尾的子串与A的前缀能够匹配的最长长度，这个锅最后补（手动尴尬））

下面进入next数组的计算方法

首先 $next[i]$ 表示A中以 $i$ 结尾的非前缀子串与A的前缀能匹配的最长长度

很显然对吧，如果你能看懂的话，那真是太好了，因为你可以跳过下面的理解教程

手动理解中

红色的是以i结尾的非前缀子串，绿色的是A的前缀

所以next数组就是红色为绿色的真子集（绿色包含红色，但绿色不等于红色）时，红色的最长长度

（画个图就好理解多了）

=理解完毕=

怎么用代码实现呢。。。

某蒟蒻lcg（举手）:枚举 $j$ 和 $i$ 的大小，并查找 $A[1\sim j]$ 和 $A[i-j+1\sim i]$ 是否相等

很好，某个菜鸡已经讲出了$O(n^2)$的预处理，我们得到了一个比暴力还慢的预处理了

如何在更短的时间里求出next数组呢？

我们首先要证明当 $next[i]$ 可以为 $j$ 时，小于 $j$ 能选择的最大值为 $next[j]$

~~证明：易证，证毕~~

证明：（不会反证法的左转）

假设有 $next[j_0]<j_1<j_0，使 $next[i]$ 可以选择 $j_1$

如图所示：

明显可以看出 $next[j_0]$ 是包含在 $next[j_1]$ 里的

又因为next数组表示在当前位置能匹配到的最大值，而 $j_1$ 比 $next[j_0]$ 更优，这与next的定义矛盾，所以假设不正确

因此

当$next[i]$可以为$j$时，小于$j$能选择的最大值为$next[j]$

然后就可以进行预处理，在求$next[i]$时，我们只需要在$next[i-1]+1,next[next[i-1]]+1...$找符合要求的值就OK了

代码实现:

初始化$next[1]=0$,不断尝试匹配$j$，如果失败，使$j=next[j]$，直到$j==0$；如果匹配成功则$j++$

next[1]=0;
for(int i=2,j=0;i<=n;i++){
	while(j>0&&b[i]!=b[j+1]) j=next[j];
	if(b[i]==b[j+1]) j++;
	next[i]=j;
}

下面是字符串的比较了（顺带说一下f数组）

for(int i=1,j=0;i<=m;i++){
	while(j>0&&(j==n||b[i]!=a[j+1])) j=next[j];
	f[i]=j;//直接赋值即可
	if(j==n) ans++;//匹配成功
}

最后输出ans即可

posted @ 2020-02-11 20:27 LCGUO 阅读(137) 评论(0) 收藏举报

刷新页面返回顶部

LCGUO