后缀自动机总结
后缀自动机总结
鉴于我觉得也没有人会看我这份总结学SAM,所以这里索性就只放一个板子了。
核心代码在这里:
const int N = 2e5+5;
int n,tr[N][26],fa[N],len[N],last=1,tot=1;
void extend(int c)
{
int v=last,u=++tot;last=u;
len[u]=len[v]+1;
while (v&&!tr[v][c]) tr[v][c]=u,v=fa[v];
if (!v) fa[u]=1;
else{
int x=tr[v][c];
if (len[x]==len[v]+1) fa[u]=x;
else{
int y=++tot;
memcpy(tr[y],tr[x],sizeof(tr[y]));
fa[y]=fa[x];fa[x]=fa[u]=y;len[y]=len[v]+1;
while (v&&tr[v][c]==x) tr[v][c]=y,v=fa[v];
}
}
}
几个需要注意的地方:
1、\(N\)的大小要开两倍。
2、\(last,tot\)的初值是\(1\)。
3、在字符集比较大的时候\(tr\)转移可以开\(map\),空间复杂度更优秀尽管加那么一点点常数。
4、一个状态的\(endpos\)集合大小就是沿\(fa\)建树后的子树大小。建树的过程往往可以用基数排序代替:
for (int i=1;i<=tot;++i) ++t[len[i]];
for (int i=1;i<=tot;++i) t[i]+=t[i-1];
for (int i=1;i<=tot;++i) a[t[len[i]]--]=i;
for (int i=tot;i;--i) sz[fa[a[i]]]+=sz[a[i]];
5、一个状态的\(longest\)就是\(len\),\(shortest\)则是\(fa.len+1\)。所以串中一共有多少个不同子串的答案就是\(\sum_{i=1}^{tot} len[i]-len[fa[i]]\)
广义后缀自动机
这玩意儿可以用来实现多个样本串的匹配。
讲的厉害一点:后缀自动机的\(endpos\)集合是基于原序列(原字符串就是一个一维的序列嘛),而广义后缀自动机的\(endpos\)集合则是基于\(Trie\)树上的节点。
讲的好厉害的样子,其实板子还是一样的,就是从哪里开始插入就把\(last\)的值赋到哪里。
比如说多个串的插入:
for (int i=1;i<=n;++i)
{
scanf("%s",s+1);
last=1;
for (int j=1,l=strlen(s+1);j<=l;++j) extend(s[j]-'a');
}
其他的就以后再补吧。。。