KMP 和 AC 自动机

引入:字符串匹配

给定字符串 ST,查询 TS 中所有出现的位置。(其中 S 称为文本串,T 称为模式串)显然暴力匹配的最坏时间复杂度是 O(|S||T|) 的。然而在题目中我们需要一种最坏情况 O(|S|+|T|) 左右的算法。

KMP 模式匹配(Knuth-Morris-Pratt)

字符串相关的某个思路即是某个字符串不可行时考虑其某个后缀是否可以。

考虑 S1SiT 最多匹配到了 Pi 位,也就是 Pi=maxd=1i[Sid+1Si=T1Td]d。显然在考虑 S1Si+1T 匹配时,有 Pi+1Pi+1。而若 Si+1TPi+1 时,考虑有哪些长度 l 满足 Sil+1Si=T1TlTl+1=Si+1,此时最大的 l 即为所求的 Pi+11。也就是说我们需要找到所有的满足 T1Tl=Sil+1Si=TPil+1TPil,也就是满足 T1TPi 的长为 l真前缀(非 T 本身 的前缀)就是长为 l真后缀(非 T 本身 的后缀)的 l(其中每个 i 对应的最长的 l 组成的数组称为 T前缀函数,此处用 nxt 表示。特别地,nxt0=nxt1=0)。根据定义,最大的 lnxtPi,考虑之后的 l 应该如何选择。

引理:仅次于 nxtPil 一定是 nxtnxtPi 而不会是 (nxtnxtPi,nxtPi) 之间的任意一个值。

证明:若 l(nxtnxtPi,nxtPi),则 T1Tl=TPil+1TPi=TnxtPil+1TnxtPi,而 nxtnxtPi=maxd=1nxtPi[TnxtPid+1TnxtPi=T1Td]d,此时 l 大于 nxtnxtPi 且满足 nxtnxtPi 满足的条件,与 nxt 的定义矛盾。故而仅次于 nxtPil 一定是 nxtnxtPi

此时可以令 p=Pi,若 Si+1Tp+1,则 pnxtp,不断进行此操作直到 p=0Si+1=Tp+1。若 p=0 时仍然 Si+1Tp+1,则 Pi+10,否则 Pi+1p+1。由于 i,0nxti<iPi+1Pi+1,故最后计算 P 的时间复杂度为 O(|S|) 的。

考虑 nxt 的求法。我们发现 nxt 就是 T 和自己进行上述过程(此时 P 数组即为 nxt 数组),但是强制从第 2 位进行匹配。同样进行上述操作即可。故而总的时间复杂度是 O(|S|+|T|) 的。

模板代码

点此查看代码
#include <bits/stdc++.h>
using namespace std;
const int maxn=1000010;
char s1[maxn],s2[maxn];
int i,j,nxt[maxn];
int main(){
scanf("%s%s",s1+1,s2+1);
const int siz1=strlen(s1+1);
const int siz2=strlen(s2+1);
for(i=2;i<=siz2;++i){
while(j&&s2[i]!=s2[j+1]) j=nxt[j];
if(s2[i]==s2[j+1]) ++j;nxt[i]=j;
}
j=0;
for(i=1;i<=siz1;++i){
while(j&&(s1[i]!=s2[j+1]||j==siz2)) j=nxt[j];
if(s1[i]==s2[j+1]) ++j;
if(j==siz2){printf("%d\n",i-siz2+1);j=nxt[j];}
}
for(i=1;i<=siz2;++i) printf("%d ",nxt[i]);
return 0;
}

循环字符串

相关定理 1

对长为 n 的字符串 s 跑一遍 KMP 之后,若 nmod(nnxtn)=0,则 s 的最小循环节长度为 nnxtn

证明 1

s 的最小循环节长度为 a,则必有其长度为 na 的前缀和后缀完全相同,也就是 nxtn 至少为 na

如果此时 nxtn 小于 na,(令 b=nnxtn)令 ts 的长为 a 的前缀(只有此处下标从 0 开始),有 tbtb+1ta1t0t1tb1=t0t1ta1,也就是 i[0,a1],ti=t(i+b)moda;由裴蜀定理可得 p>0i[1,n],都有 ti=t(i+pb)moda=t(i+gcd(a,b))moda;故 ts 的最小循环节长度均为 gcd(a,b),与之前矛盾。

证毕。

相关定理 2

长为 n 的任意字符串 s 的所有循环节长度一定都是最小循环节长度的整数倍。

证明 2

思路与 证明 1 相似。

s 的最小循环节长度为 a;若 s 存在长度为 b 的循环节,且 bmoda0,则 nlcm(a,b);由裴蜀定理得 j0,i[0,a1],si=si+aj=s(i+aj)modb=si+gcd(a,b),且 j<lcm(a,b)a。所以 s 由长度为 gcd(a,b) 的循环节,而 gcd(a,b)<a;与之前矛盾。

证毕。

AC 自动机(Alfred-Corasick Automaton)

原理

AC 自动机结合了 Trie 树能整理多个字符串的特性和 KMP 算法中的前缀函数的性质,常用于对多个字符串的信息的整合(例如多模式串匹配)。

构造和理解

AC 自动机上除了需要对于多个串建出普通的 Trie 之外,每个节点还需要一个 nxt 指针,表示这个节点对应的字符串在 Trie 存在的最长后缀的对应节点。

nxt 指针的求法、原理和原理证明与 KMP 算法中的 nxt 相似。在计算某个节点 u 的 nxt 时,令其父节点为 p,父节点连向这个点的转移边为字符 c(令 triep,c=u),若 trienxtp,c 存在,则令 nxtutrienxtp,c;否则 pnxtp,再看 trienxtp,c 是否存在;直到 p 为根节点且 triep,c 不存在,再将 nxtu 赋值为根节点。

显然 inxti 对应的字符串长度小于 i,故而可以在 Trie 树上 BFS,可以保证在求每个点的 nxt 时其父节点的 nxt、这个 nxt 对应的 nxt …… 这样即可顺利求这个点的 nxt。不难发现 nxt 组成了一棵内向树。(p.s. 这种树被称为 失配树。)

考虑另外一种情况:在模式串为 she、he、her,对文本串 sher 进行匹配。在匹配完 she 之后需要标记 she、he(某个模式串得以完整匹配时,其所有后缀也能完整匹配),同时需要从 Trie 树上的 she 串的节点和其 nxt 上同时走,才能匹配出模式串 her。如果真的在目前经过的节点的所有 nxt 一起根据字符跳转的话,这样会是很低效的。

如果需要更方便地进行跳转,Trie 树边是不够的,我们需要在求出的 nxt 的基础上多连一些转移边。此时需要的就是 u,c,若不存在 trieu,c,则增加从 utrienxtu,cc 转移边。这样等效于在从 u 走到 trieu,c 时,若这条转移边非树边,则相当于同时在 nxtunxtnxtu(因为 nxtu 也进行了这样的过程)等节点均进行了转移,在后面补上 c

最后进行多模式匹配的过程就是将文本串在 AC 自动机上匹配的过程。在文本串进行匹配时,标记每个点被经过的次数。理论上某个点被经过时我们需要标记其 nxt 树上的所有祖先(但是这样会使得时间复杂度升为 O(n2),考虑模式串刚好为 aaaa 的情况),但是可以在跑完文本串后再进行标记。时间复杂度显然为 O(n|Σ|) 的,其中 |Σ| 为字符集大小。

AC 自动机模板代码

点此查看代码
#include <bits/stdc++.h>
using namespace std;
const int maxn=2000010;
const int maxl=2000010;
int i,j,n,k,t,*p,hd,tl,siz,tot,ans,all;
int trie[maxn][26],q[maxn],ed[maxn],nxt[maxn];
int To[maxn],In[maxn],cnt[maxn];
char s[maxn],d[maxl];
int main(){
scanf("%d",&n);
for(i=1;i<=n;++i){
scanf("%s",s+1);
siz=strlen(s+1);
p=&k;
for(j=1;j<=siz;++j){
p=&trie[*p][s[j]-'a'];
if(!(*p)) *p=++tot;
}
To[i]=*p;
}
for(i=0;i<26;++i) if(trie[0][i]) q[++tl]=trie[0][i];
while(hd!=tl){
i=q[++hd];
for(j=0;j<26;++j){
p=&trie[i][j];
if(!(*p)) *p=trie[nxt[i]][j];
else{nxt[*p]=trie[nxt[i]][j];q[++tl]=*p;}
}
}
hd=tl=j=0;
for(i=1;i<=tot;++i) ++In[nxt[i]];
for(i=1;i<=tot;++i) if(!In[i]) q[++tl]=i;
scanf("%s",d+1);
siz=strlen(d+1);
for(i=1;i<=siz;++i){
j=trie[j][d[i]-'a'];
++cnt[j];
}
while(hd!=tl){
i=q[++hd];j=nxt[i];
cnt[j]+=cnt[i];
if(!(--In[j])) q[++tl]=j;
}
for(i=1;i<=n;++i) printf("%d\n",cnt[To[i]]);
return 0;
}
posted @   Fran-Cen  阅读(62)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 分享一个免费、快速、无限量使用的满血 DeepSeek R1 模型,支持深度思考和联网搜索!
· 基于 Docker 搭建 FRP 内网穿透开源项目(很简单哒)
· ollama系列1:轻松3步本地部署deepseek,普通电脑可用
· 按钮权限的设计及实现
· 【杂谈】分布式事务——高大上的无用知识?
点击右上角即可分享
微信分享提示