后缀自动机总结

后缀自动机总结

鉴于我觉得也没有人会看我这份总结学SAM,所以这里索性就只放一个板子了。
核心代码在这里:

const int N = 2e5+5;
int n,tr[N][26],fa[N],len[N],last=1,tot=1;
void extend(int c)
{
	int v=last,u=++tot;last=u;
	len[u]=len[v]+1;
	while (v&&!tr[v][c]) tr[v][c]=u,v=fa[v];
	if (!v) fa[u]=1;
	else{
		int x=tr[v][c];
		if (len[x]==len[v]+1) fa[u]=x;
		else{
			int y=++tot;
			memcpy(tr[y],tr[x],sizeof(tr[y]));
			fa[y]=fa[x];fa[x]=fa[u]=y;len[y]=len[v]+1;
			while (v&&tr[v][c]==x) tr[v][c]=y,v=fa[v];
		}
	}
}

几个需要注意的地方:
1、\(N\)的大小要开两倍。
2、\(last,tot\)的初值是\(1\)
3、在字符集比较大的时候\(tr\)转移可以开\(map\),空间复杂度更优秀尽管加那么一点点常数。
4、一个状态的\(endpos\)集合大小就是沿\(fa\)建树后的子树大小。建树的过程往往可以用基数排序代替:

for (int i=1;i<=tot;++i) ++t[len[i]];
for (int i=1;i<=tot;++i) t[i]+=t[i-1];
for (int i=1;i<=tot;++i) a[t[len[i]]--]=i;
for (int i=tot;i;--i) sz[fa[a[i]]]+=sz[a[i]];

5、一个状态的\(longest\)就是\(len\)\(shortest\)则是\(fa.len+1\)。所以串中一共有多少个不同子串的答案就是\(\sum_{i=1}^{tot} len[i]-len[fa[i]]\)

广义后缀自动机

这玩意儿可以用来实现多个样本串的匹配。
讲的厉害一点:后缀自动机的\(endpos\)集合是基于原序列(原字符串就是一个一维的序列嘛),而广义后缀自动机的\(endpos\)集合则是基于\(Trie\)树上的节点。
讲的好厉害的样子,其实板子还是一样的,就是从哪里开始插入就把\(last\)的值赋到哪里。
比如说多个串的插入:

for (int i=1;i<=n;++i)
{
	scanf("%s",s+1);
	last=1;
	for (int j=1,l=strlen(s+1);j<=l;++j) extend(s[j]-'a');
}

其他的就以后再补吧。。。

posted @ 2018-03-27 20:56  租酥雨  阅读(252)  评论(0编辑  收藏  举报