2023.3.24 【字符串】KMP 算法

题目描述

有这样一个问题:

给定 n 个模式串 si 和一个文本串 t,求有多少个不同的模式串在文本串里出现过。
两个模式串不同当且仅当他们编号不同。

题面多简单qwq

如果我们简化一下这个问题,模式串和文本串都只有一个,那么我们就可以用一个10行就能写完的算法——KMP字符串匹配来解决问题。

我们在匹配之前,先将这个模式串“自匹配”,设数组next[i]表示模式串前i个字符能进行自匹配的最大长度,这里我们定义“自匹配”:

如果字符串s的前k个字符等于后k个字符,且k是满足条件的最大值,那么我们就说k是s自匹配的最大长度。

从1到n(长度)循环,如果s[next[i1]+1]==s[i],那么next[i]就可以由next[i1]延续而来,由于next[i1]是最大值,next[i]一定是最大值(匹配长度最多增加一位)

如果不等于,说明当前匹配长度next[i1]无法延伸到next[i],我们称这种情况叫做失配,失配后我们需要找到备选答案,即满足对于前i1个字符(第i个尚未匹配),有前k个字符等于后k个字符,但是k是小于next[i1]的(因为next[i1]不可取),然后再检验s[k+1]是否等于s[i]。我们要想办法不重不漏、从大到小地选择这样的k值。

我们观察到一个性质,由于前i - 1个字符中,next[i1]已经是前后匹配的最大值,所以对于k<next[i1],前next[i1]这一段的后k个字符一定等于前i1个的后k个字符,也就是说,s[next[i1]k+1]s[next[i1]]==s[ik]s[i1]

然而我们又要s[1]s[k]==s[ik]s[i1]

所以s[1]s[k]==s[next[i1]k+1]s[next[i1]]

注意到,前next[i1]个字符中,前k个等于后k个,又因为我们要k除next[i1]外的最大值,所以根据定义 ,我们要的k就是next[next[i1]]

如图:

image

完成自匹配后,其实文本串和模式串匹配是一样的,记录当前t[i1]的最大匹配长度k,i每次增加是检验t[i]s[k+1]是否相等,如果不相等,就将k=next[k]再匹配即可,当k==s.length时,就是s在t中的一次出现。

Code

for(int i = 2,j = 0;i <= n;i++)
{
	while(j > 0 && s[i] != s[j + 1]) j = next[j];
	if(s[i] == s[j + 1]) j++;
	next[i] = j;
}
for(int i = 1,j = 0;i <= m;i++)
{
	while(j > 0 && (t[i] != s[j + 1] || j == n)) j = next[j];
	if(t[i] == s[j + 1]) j++;
	f[i] = j;
	if(j == n)
		otp.push(i - j + 1);
}

(此处s和t都从1开始)

这时向前看,我们就会发现next数组多了一种意义:当前模式串的前i个匹配后,如果失配了,接下来应该匹配模式串的前几个。相当于为我们指明了当前状态失配后应该转移到哪里去。这个在后来的AC自动机,PAM和SAM中都是十分普遍的概念。我们后来叫它fail数组,即“失配数组”。

KMP算法的复杂度是O(n + m)的,因为它的两个循环分别次数为n 和 m ,对于当前记录的长度k(即程序里的j),每次只会向后+1,而减少的量不会多于增加的量,所以最多移动2n个单位,复杂度也是O(n)的。

posted @   The_Last_Candy  阅读(13)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 分享一个免费、快速、无限量使用的满血 DeepSeek R1 模型,支持深度思考和联网搜索!
· 基于 Docker 搭建 FRP 内网穿透开源项目(很简单哒)
· ollama系列01:轻松3步本地部署deepseek,普通电脑可用
· 按钮权限的设计及实现
· 25岁的心里话
点击右上角即可分享
微信分享提示