[学习笔记] SAM——后缀自动机

零.前言

~~真是给我整的有够难受的，这个SAM，也不算搞懂了。只是粗浅的理解了一下，且在这里试图将它写下来。~~

上面是这个笔记的初稿，现在做了一些题，感觉自己不说懂完了，但是还是有一点点点点东西的。/cy

一.概念

1.自动机

感兴趣的可以自主找资料看一下，很有趣的一个概念，能够帮助你理解各路自动机，由于不是重点，所以这里不加以阐释。

2.后缀自动机(Suffix automaton,SAM)

为对应字符串的所有子串的压缩形式，节点数最多为 \(2n-1\),转移边最多有 \(3n-4\) 条。这些性质在后面会给出论证。此处不做讲解

组成部分分有两个，一个是它的自动机部分，为一个有向无环图，图上的每一个点被称为是一个“状态”，每一个边称为“转移”，图上的源点称为初始状态。另外一个是一棵树，多被称为 \(Parent~tree\) ,每一个点也是状态，但是边为 "后缀链接"，初始状态为这棵树的根。此处也暂时不做证明。

接下来给出上面所有加粗术语的内涵。

3.状态

又被称为一个 “\(Endpos\) 等价类”，或者叫 "\(right\) 集合"。

对于子串 s，它的所有出现位置（以 "right" ，即最后一个字母(end) 出现的位置( position )为代表),可以构成一个集合 S。那么集合相同的所有串被同一个状态所代表。

取这些串中的最长的串为 \(s_{max}\) 那么状态上会储存它的长度 \(Len\)。

4.转移

每个转移上有一个字符 c ，那么经过这条转移相当于在串的末尾添加一个字符 c。每一个状态所对应的所有转移互不相同。且这个状态所代表的所有串都可以走这个转移到一个相同的状态中。

5.后缀链接

表示状态 \(endpos\) 包含关系的连边。若是等价类 \(S \subset 等价类A\) 那么从 S 对应的状态向 A 对应的状态连边。

6.论证与清新理解

这里就是我得私货了，是我自己关于以上概念的一些不成熟的想法，跟算法没有什么关系，只是我得一些小想法。不想看可以不看。

trie与 parent tree 与后缀链接与状态和后缀树

首先每一个子串都会有一个与之相对应的状态，虽然并不一一对应。那么作为一个及其特殊的子串——空串，存在于所有位置，他会恰好对应一个最大的集合，也就是初始状态，parent tree 的树根，因为所有的状态上的 endpos 集合都被初始状态的集合所包含。

那么考虑一个向前的“扩展”的过程，对于一个子串\(A\)，我们通过在其前面添加一个字符，变成一个更长的合法子串\(B=cA\)。容易想出，B 对应的集合是包含于A的。一方面可以考虑 A 是 B 的真后缀，所以所有 B 出现的 endpos ，A 也一定出现。另一方面可以认为我们使 B 变得更为特殊，出现条件更为苛刻，所以满足条件的位置更少。

然后将扩展想象成伸出一条带字母的边，可以认为是在不断的向下“生长”成为一颗树。

那么如此想像，可以得到一颗树，很有趣的是，它和将所有子串倒着插成一个 \(trie\) 的结果相同。很可悲的是，他跟SAM中的树还暂时没有什么关系。这颗 tire 上的每一个点到根代表着一个子串，对于每一个子串，也只对应一个点，然后不妨将这个子串在原串中的出现次数标到点上。

若是存在连续一段中间没有分叉且出现次数相同的部分，我们就可以将它压缩成同一个点，实际上是后缀树的定义，这样压缩下来就成为了SAM对应的 parent tree，而其中剩下的边即为后缀链接。且这个时候也能说明为什么 \(endpos\) 等价类之间形成一个树关系。

可能听着觉得很奇怪。但这个想法实际上反映了 \(endpos\) 等价类的许多内涵。记这个段上某一个点为 \(A\) 它的父亲为 \(B\) .没有分叉，证明了所有的子串 B 向前 “扩展” 只能成为 A，同时树的性质也决定了所有的 A 也只由 B 扩展而来。再换句话说，有 A 的地方就有 B ，有 B 的地方就有 A，且 A 为 B 的后缀。这满足了 \(endpos\) 等价类的意义。需要注意的是，当 B 为 'a' ，A 为 'aa' ，不满足意义，因为出现次数不同。

同时原来 tire 中的边就是反映的一个子串间的后缀关系，而后缀链接作为边的一部分同样也可以反映，所以叫 “后缀” 链接，更具体的，记后缀链接 \((p,q)\),所以 q 中的串为 p 中的串的后缀。（由于压缩的意义，一个状态已经包含很多个串了）

所以可以快速证明以下几个引理。

字符串 S 的两个非空子串 u 和 w （假设 |u|<=|w| ,可以得到在 tire 中 u 为 w 的祖先）的相同，当且仅当字符串 u 在 s 中的每次出现，都是以 w 后缀的形式存在的。

很显然，endpos等价类来源于压缩的过程，而压缩前的tire 保证了后缀关系。
同样条件下，\(endpos(u)\) 和 \(endpos(w)\) 不交叉，即交集要么为空要么为 \(endpos(w)\)

同样很好证，tire树的形态保证了节点要么包含要么不交。
考虑一个 \(endpos\) 等价类，将类中的所有子串按长度非递增的顺序排序。每个子串都不会比它前一个子串长，与此同时每个子串也是它前一个子串的后缀。换句话说，对于同一等价类的任一两子串，较短者为较长者的后缀，且该等价类中的子串长度恰好覆盖整个区间。

易证，本来在tire上就是后缀关系，合在一起并不破坏关系。
对于原串 S 的任一前缀，均为其所在的状态中最长的串。

易证，由于是前缀，所以在原 trie 中到达叶子节点，能和他合并的并没有比他长的。同时这个在增量构建的方式中也看得出来。
所有在 parent tree 中的叶子节点均为前缀，但是前缀并不为叶子，为叶子是充分条件。

自证不难。不想写了。

状态与转移

与“扩展”在前面加一个字符的形式不同，转移时在后面添加一个字符。于是连边就连向对应的 \(endpos\) 等价类就好。然后这个自动机是一个有向无环图也很好证，因为每走一个转移长度会加1，所以不可能走到他自己，所以无环。

状态数的证明

从之前的理解来看，容易发现叶子节点均为一个前缀，于是可以知道 parent tree 是一个内部节点除了部分特殊点（前文提到的 'aa' 与 'a'，而且这种东西只会在一个前缀均为同一字母的时候才为链，可以思考为什么，或者直接画图检验）都有着不止一个儿子，而叶子节点最多只有前缀个数即 |S| 个（顶不到的情况是特殊点，会消耗叶子节点数，状态数更小），于是 “任意内部节点读书至少为2，叶子节点最多为 n”的树，点数最多为 \(2n-1\)

当然也可以从构造算法看。

转移数的证明

咕咕咕。

二.构造

扯了一堆没什么卵用的。

现在来说SAM的构造，首先这是一个在线的构造，对于每次新增的一个字符 c ，插入一个可以代表他的状态 cur 。要维护他在 parent tree 上的位置以及转移。不妨记上一次插入的状态为 last 。那么很显然的 last 为上一次插入的 cur，且每一次插入的都是代表整个串，即集合{end}.

先考虑维护它的转移。

由于转移是相当于在后面加一个合法的字符，所以理论上来讲所有的原后缀都可以增添一个转移到 cur 。由于 last 代表整个原串，所以顺着 last 在 parent tree 上到根的路径就可以遍历出所有的后缀，并且试图在其后添加一个到 cur 的转移。

但是当某一个代表原后缀的状态 p ，拥有一个为 c 的转移的时候，就会产生“冲突”，这和我们概念所保证的每一个状态中转移互不相同不一样。于是尝试去解决这个问题。

开始观察 p 经过 c 转移所到达的状态 q。首先设想一个非常简单的情况，q 中最长的串为 \(xc\) ，那么很幸运地是此时可以直接将 cur 的后缀链接连到 q 上去，因为满足在上面所提到的“后缀链接 \((a,b)\), b 中最长的串为 a 中最短的串的后缀”。当最长的串为 \(dxc\) 的时候，情况变得了复杂起来。因为并不满足性质。

这种情况之所以会出现，是因为之前压缩的太过度了。这种情况下最憨的想法是将那个状态拆回 tire 上的形式，然后在压缩。经过手玩之后，我们发现这个过程产生了一个新的状态，且这个状态恰好代表 \(xc\) ，而它的儿子最短的串都比\(xc\) 在前面多一个字符。此时就可以将 cur 接到新状态上去了。并且发现拆的前后的信息十分相似，唯一的差别就是最长串的长度，信息的相似读者自证奥。

最后一步是处理转移，因为有且只有 p 的后缀可以走 c 的转移到 q，转移出来的串长度可能是原来的 q 中长度大于 \(xc\) 的那一部分，所以有一个转移分流。

给出构造的代码。

CODE

struct node{
	int len,link,siz;//最大串长度，后缀链接，出现次数（后文会讲）
	map<char , int > tran;//转移
}alf[MAXN];
inline void SAM_insert(char c){
	int cur=++tot,now=last;
	alf[cur].len=alf[last].len+1;
	alf[cur].siz=1;
	while(now!=-1&&!alf[now].tran[c])alf[now].tran[c]=cur,now=alf[now].link;//顺着跳，加转移
	if(now==-1)alf[cur].link=0;//它的合法真后缀就只有空串了
	else{
		int bet=alf[now].tran[c];
		if(alf[bet].len==alf[now].len+1)alf[cur].link=bet;//简易情况
		else {
			int clone=++tot;//拆点
			alf[clone]=alf[bet];//复制
			alf[clone].len=alf[now].len+1,alf[clone].siz=0;//更新串长与出现次数
			while(now!=-1&&alf[now].tran[c]==bet)alf[now].tran[c]=clone,now=alf[now].link;//转移分流
			alf[cur].link=alf[bet].link=clone;//链起来
		}
	} 
	last=cur;
}

同时很有趣的是，我们拆出一个新点，恰好给他了两个儿子，并不破环 parent tree 的性质，并且每一次操作只会产生一个新点，所以总状态数是 \(2n\) 级别的。

总共构建的复杂度不会算。

并且由于是增量构建的，所以每插入一个完成后，都可以识别当前所有的后缀，而当前是一个前缀，之后也并不删除信息，故能识别所有前缀的所有后缀，即所有子串。

三.应用选讲

此处总结了一些见过和想到的东西。还是题做少了。

1.本质不同子串数

将所有状态上的 len 和父亲的 len 做差即可。

2.第 k 小子串

可以知道一条转移序列和一个子串一一对应，等于是在DAG上面先DP出每一个状态走任意转移能得到的子串数，然后贪心即可，有点类似于平衡树上第 k 小。

3.某子串在文本串中的出现次数

直接拿文本串 S 大力跑，能转移就转移，不能转移就跳 link 直到能转移。这一步其实很贪心，因为跳 link 相当于在前面删去尽可能少的字符，然后看是否够转移。

同时注意到由于相当于删去，最多跳 |S| 次，最多转移 |S| 次，所以线性。

最后统计答案的时候需要将子树内答案累加，因为后缀链接代表后缀关系，那么一个串出现即代表它的所有后缀都出现。

4.两个字符串最长公共子串

还是拿一个建，另一个大力跑，然后记录一下当前匹配到的长度 \(Len(i)\) 表示在 i 位置匹配到了一个长度为 \(Len(i)\) 的串，取 Len 的最大值即可。

具体的计算，在走转移时 \(Len(i)\) 就+1，跳 link 的时候就置为状态上的 len，感觉不太需要解释，毕竟贪心。

例题

5.多个字符串最长公共子串

方法同上，只是单次要在子树内取最大，全局要取每一次最小。

例题

CODE

#define fe(i,a,b) for(int i=a;i<=b;++i)
const int MAXN=1e5+5;
struct node{
	int trans[30],link,len,ans,nowans;
	vector<int> ch;
	inline void upd(int x){nowans=min(len,max(nowans,x));}
}alf[MAXN*2-1];
int tot,last,ans;
inline void SAM_insert(int c){
	int cur=++tot,now=last;
	alf[cur].len=alf[last].len+1,alf[cur].ans=1e9;
	while(now!=-1&&!alf[now].trans[c])alf[now].trans[c]=cur,now=alf[now].link;
	if(now==-1)alf[cur].link=0;
	else{
		int bet=alf[now].trans[c];
		if(alf[bet].len==alf[now].len+1)alf[cur].link=bet;
		else{
			int clone=++tot;
			alf[clone]=alf[bet],alf[clone].len=alf[now].len+1;
			while(now!=-1&&alf[now].trans[c]==bet)alf[now].trans[c]=clone,now=alf[now].link;
			alf[cur].link=alf[bet].link=clone;
		}
	}
	last=cur;
}
char s[MAXN];
inline void solve(int x){
	int siz=alf[x].ch.size();
	fe(i,0,siz-1)solve(alf[x].ch[i]);
	alf[x].ans=min(alf[x].ans,alf[x].nowans);
	if(x)alf[alf[x].link].upd(alf[x].nowans);
}
int main(){
	scanf("%s",s+1);
	alf[0].link=-1;
	int len=strlen(s+1);
	fe(i,1,len)SAM_insert(s[i]-'a');
	fe(i,1,tot)alf[alf[i].link].ch.push_back(i);
	while(scanf("%s",s+1)!=EOF){
		fe(i,0,tot)alf[i].nowans=0;
		len=strlen(s+1);
		int now=0,cnt=0;
		fe(i,1,len){
			if(alf[now].trans[s[i]-'a'])now=alf[now].trans[s[i]-'a'],cnt++;
			else {
				while(now!=-1&&!alf[now].trans[s[i]-'a'])now=alf[now].link;
				if(now!=-1)cnt=alf[now].len+1,now=alf[now].trans[s[i]-'a'];
				else now=cnt=0;
			}
			alf[now].upd(cnt);
		}
		solve(0);
	}
	fe(i,1,tot)ans=max(ans,alf[i].ans);
	printf("%d",ans);
	return 0;
}

6.一个串和另一个串的某一区间的最长公共子串

例题

这是一个很典型的 \(i-Len(i)\) 的模型，原题对于每一个询问 \([l,r]\)，相当于求 \(\max_{l\leq i\leq r}\{\min\{Len_i,i-l+1\}\}\)。考虑 min 号里面两项做差，抛开常数即为 \(i-Len(i)\),容易发现这个东西单调不降。因为向后走 i 肯定能增大，而 Len 最多增大1.所以有单调性。直接二分看什么时候取那一边就完事了。

CODE

#define fe(i,a,b) for(int i=a;i<=b;++i)
const int MAXN=2e5+5;
struct node{
	int trans[30],link,len;
}alf[MAXN*2-1];
int tot,last;
inline void SAM_insert(int c){
	...
}
char s[MAXN],t[MAXN];
int bet[MAXN],Q,RMQ[MAXN][20],lg2[MAXN],lent,len;
inline int ST_query(int l,int r){
	int k=lg2[r-l+1];
	return max(RMQ[l][k],RMQ[r-(1<<k)+1][k]);
}
inline void ST_init(){
	fe(i,1,len)RMQ[i][0]=bet[i],bet[i]=i-bet[i]+1;
	fe(j,1,19)for(int i=1;i+(1<<(j-1))-1<=len;++i)RMQ[i][j]=max(RMQ[i][j-1],RMQ[i+(1<<(j-1))][j-1]);
	lg2[1]=0;
	fe(i,2,len)lg2[i]=lg2[i>>1]+1;
}
int main(){
	alf[0].link=-1;
	scanf("%s",s+1),len=strlen(s+1);
	scanf("%s",t+1),lent=strlen(t+1);
	fe(i,1,lent)SAM_insert(t[i]-'a');
	int now=0,cnt=0;
	fe(i,1,len){
		if(alf[now].trans[s[i]-'a'])now=alf[now].trans[s[i]-'a'],cnt++;
		else {
			while(now!=-1&&!alf[now].trans[s[i]-'a'])now=alf[now].link;
			if(now!=-1)cnt=alf[now].len+1,now=alf[now].trans[s[i]-'a'];
			else now=cnt=0;
		}bet[i]=cnt;
	}
	ST_init();
	Q=read();
	fe(i,1,Q){
		int l=read(),r=read();
		if(bet[r]<l)printf("%d\n",r-l+1);
		else if(bet[l]>=l)printf("%d\n",ST_query(l,r));
		else {
			int mid=lower_bound(bet+1,bet+len+1,l)-bet;
			printf("%d\n",max(mid-l,ST_query(mid,r)));
		}
	}
	return 0;
}

7.Len(i) 套DP

例题

还是先求一个 \(Len(i)\) ，然后可以一通乱搞写一个非常经典的枚举断点的DP式 \(f[i]=\max\limits_{j\in[i-len[i],i-1)}\{f[j]+i-j\}\)，发现可以单调队列优化，这个水题就结束了/cy，太水了就不贴代码了。

8.线段树合并维护 Endpos

你要先会线段树合并，不会的话大概花半个小时先学会吧。

然后这题就是大力跑T，然后看每一位是不是可以歪出去，然后挑最远的歪就好了。中间大力转移的时候需要注意走合法的位置，因为要在区间 \([l,r]\) 中，然后可以清晰的知道估计的转移后长度 \(i\) ，于是要求转移到的集合中与区间\([l+i-1,r]\)存在交集。

code

#define fe(i,a,b) for(int i=a;i<=b;++i)
const int MAXN=2e5+5;
int lc[MAXN*20],rc[MAXN*20],siz[MAXN*20],tot_Seg;
inline void upd(int x){siz[x]=siz[lc[x]]+siz[rc[x]];}
int Seg_insert(int l,int r,int g){
	if(l>r)return 0;
	int res=++tot_Seg,mid=(l+r)>>1;
	if(l==r)return siz[res]++,res;
	if(mid>=g)lc[res]=Seg_insert(l,mid,g);
	else rc[res]=Seg_insert(mid+1,r,g);
	return upd(res),res;
}
int merge(int x,int y){
	if(!x||!y)return x+y;
	int res=++tot_Seg;
	lc[res]=merge(lc[x],lc[y]);
	rc[res]=merge(rc[x],rc[y]);
	return upd(res),res;
}
bool query(int x,int l,int r,int L,int R){
	if(l>=L&&r<=R)return siz[x]!=0;
	if(r<L||l>R||!x)return 0;
	int mid=(l+r)>>1;
	return query(lc[x],l,mid,L,R)|query(rc[x],mid+1,r,L,R);
}
char s[MAXN];
struct node{
	int link,len,trans[30];
	int rt,in;//rt代表对应的线段树的根节点，in是入度用来排序
}alf[MAXN*2+1];
int tot_SAM,last,len;
inline void SAM_insert(int c){
	int cur=++tot_SAM,now=last;
	alf[cur].len=alf[last].len+1,alf[cur].rt=Seg_insert(1,len,alf[cur].len);//有所改变的地方
	while(now!=-1&&!alf[now].trans[c])alf[now].trans[c]=cur,now=alf[now].link;
	if(now==-1)alf[cur].link=0;
	else{
		int bet=alf[now].trans[c];
		if(alf[bet].len==alf[now].len+1)alf[cur].link=bet;
		else{
			int clone=++tot_SAM;
			alf[clone]=alf[bet],alf[clone].len=alf[now].len+1,alf[clone].rt=0;
			while(now!=-1&&alf[now].trans[c]==bet)alf[now].trans[c]=clone,now=alf[now].link;
			alf[cur].link=alf[bet].link=clone;
		}
	}
	last=cur;
}
int que[MAXN*2+1],fr,ed;
inline void make_endpos(){
	fe(i,1,tot_SAM)++alf[alf[i].link].in;
	fe(i,1,tot_SAM)if(!alf[i].in)que[ed++]=i;
	while(fr<ed){
		int now=que[fr++];
		if(!now)continue;
		alf[alf[now].link].rt=merge(alf[alf[now].link].rt,alf[now].rt);
		alf[alf[now].link].in--;
		if(!alf[alf[now].link].in)que[ed++]=alf[now].link;
	}
}
int nxt[MAXN];
int main(){
	scanf("%s",s+1);
	len=strlen(s+1);
	alf[0].link=-1;
	fe(i,1,len)SAM_insert(s[i]-'a');
	make_endpos();
	int Q=read();
	while(Q--){
		int l=read(),r=read(),now=0,del,i;
		scanf("%s",s+1),del=strlen(s+1);
		for(i=1;;i++){
			nxt[i]=-1;
			fe(j,max(s[i]-'a'+1,0),'z'-'a')if(alf[now].trans[j]&&query(alf[alf[now].trans[j]].rt,1,len,l+i-1,r)){nxt[i]=j;break;}
			if(i==del+1||!alf[now].trans[s[i]-'a']||!query(alf[alf[now].trans[s[i]-'a']].rt,1,len,l+i-1,r))break;
			now=alf[now].trans[s[i]-'a'];
		}
		while(i&&nxt[i]==-1)i--;
		if(!i)printf("-1\n");
		else {
			fe(j,1,i-1)printf("%c",s[j]);
			printf("%c\n",nxt[i]+'a');
		}
	}
	return 0;
}

四.一些扩展——广义SAM

既然学了SAM就要会广义，不然很亏的\cy

这个东西，网上有很多假写法，主要假在复杂度，要是真的想学可以上OIwiki或者模板题的题解里面看晨星凌写的东西，在线离线都有。顺带一提我现在还只会写离线的，在线的懂了没写。

用我的话来讲，就是先插入一个 tire 树中，然后大力拿 trie 树上面按深度 FIFO 的顺序建SAM，需要注意的是复制节点的地方需要特判一下。复杂度一类的就咕咕了，反正是线性（有些带字符集，想了解可以看15年论文集第一篇，就是在那里提出的）。

CODE

#include<iostream>
#include<cstdio>
#include<algorithm>
#include<cstring>
#include<cmath>
#include<queue>
using namespace std;
#define fe(i,a,b) for(int i=a;i<=b;++i)
inline int read(){
	char ch=getchar();
	int res=0,f=1;
	for(;ch<'0'||ch>'9';ch=getchar())if(ch=='-')f=-1;
	for(;ch>='0'&&ch<='9';ch=getchar())res=(res<<3)+(res<<1)+(ch-'0');
	return res*f;
}
const int MAXN=1e6,CSIZ=30;
struct EX_SAM{
	#define pii pair<int,int> 
	#define mp(a,b) make_pair(a,b)
	int tot;
	struct node{int trans[CSIZ+1],link,len;}alf[MAXN*2+1];
	inline void strins(string s){
		int len=s.length(),now=0;
		fe(i,0,len-1)now=alf[now].trans[s[i]-'a']?alf[now].trans[s[i]-'a']:(alf[now].trans[s[i]-'a']=++tot);
	}
	inline long long solve(){
		long long res=0;
		fe(i,1,tot)res+=alf[i].len-alf[alf[i].link].len;
		return res;
	}
	inline void SAM_insert(int last,int c){
		int cur=alf[last].trans[c],now=alf[last].link;
	//	if(alf[cur].len)return ;我觉得这句很没有意义，但是看OIwiki上面有就写在这里以表尊敬，可能是我复杂度假了，反正加不加都能过模板。
		alf[cur].len=alf[last].len+1;
		while(now!=-1&&!alf[now].trans[c])alf[now].trans[c]=cur,now=alf[now].link;
		if(now==-1)alf[cur].link=0;
		else {
			int bet=alf[now].trans[c];
			if(alf[bet].len==alf[now].len+1)alf[cur].link=bet;
			else {
				int clone=++tot;
				alf[clone].link=alf[bet].link,alf[clone].len=alf[now].len+1;
				fe(i,0,CSIZ)if(alf[alf[bet].trans[i]].len)alf[clone].trans[i]=alf[bet].trans[i];
				while(now!=-1&&alf[now].trans[c]==bet)alf[now].trans[c]=clone,now=alf[now].link;
				alf[cur].link=alf[bet].link=clone;
			}
		}
	}
	inline void build(){
		queue<pii> q;
		alf[0].link=-1;
		fe(i,0,CSIZ)if(alf[0].trans[i])q.push(mp(0,i));
		while(!q.empty()){
			int u=alf[q.front().first].trans[q.front().second];
			SAM_insert(q.front().first,q.front().second);
			fe(i,0,CSIZ)if(alf[u].trans[i])q.push(mp(u,i));
			q.pop();
		}
	}
}S;
string s;
int n;
int main(){
	n=read();
	fe(i,1,n){
		cin>>s;
		S.strins(s);
	}
	S.build();
	printf("%lld",S.solve());
	return 0;
}

与 AC自动机

噢，终于来到了我最想写的部分。

在15年论文里面，就提出了 AC自动机可以被 SAM 所代替。但是我没怎么看到实现，于是我自己写了一下，已经把三个luogu的模板题过了。

先来想 AC自动机和广义 SAM 的关系吧，有好几个相同点。

都是以 trie 树作为基础搭建的（这里我说的是离线构造SAM，按晨星凌题解里面说的正确的在线节点数跟离线是一样的，但是我没时间写所以还不得而知）
都有一个指向后缀关系的链接/指针（link和fail）

但是还是各有不同点。

AC自动机不破坏原来 trie树的结构，但是只能识别一整个串。

广义 SAM 破坏了原来 tire 树的结构，但是可以识别所有的串的所有子串，识别本串当然不在话下。

于是也不是每一个AC自动机的题都可以简单的去替换，比如像阿狸的打字机这种题，既运用了trie树的形态，又运用了fail树的性质的题，虽然我yy了一下可以拿广义 SAM 去写，但是会很烦和恶心，因为原来的结构烂掉了。所以没有必要舍近求远，恶心自己的事情还是少做。

然后具体说说怎么去实现。首先在插入 trie 后，给末尾的状态打上对应的标记。然后就能知道整串在哪里出现。然后对于一整个文本串，直接大力跑，给贪心经过的状态打上标记。

为了避免整串识别到别的串某一后缀去或者说保持逻辑上的合理性，又或是和AC自动机相互照应，反正是需要统计整个子树内的标记情况。然后比AC自动机稍微复杂一点的是当前状态实在囊括了太多信息，所幸模式串串所在的状态的最长串一定是模式串（我 yy 的，感觉上和实践上都是对的，自证感觉不难），所以更关心一个状态的最长串是否被经过。于是需要判断当前贪心得到的最长长度和 \(maxlen\) 的关系。

给出AC自动机模板（二次加强版）的代码。

CODE

#include<iostream>
#include<cstdio>
#include<algorithm>
#include<cstring>
#include<cmath>
#include<queue>
#include<vector>
using namespace std;
#define fe(i,a,b) for(int i=a;i<=b;++i)
inline int read(){
	char ch=getchar();
	int res=0,f=1;
	for(;ch<'0'||ch>'9';ch=getchar())if(ch=='-')f=-1;
	for(;ch>='0'&&ch<='9';ch=getchar())res=(res<<3)+(res<<1)+(ch-'0');
	return res*f;
}
const int CHIZ=30,MAXN=4e5;
int ans[MAXN];
struct EX_SAM{
	int tot;
	struct node{
		int trans[CHIZ+1],link,len,vis;
		vector<int>ch,num;
	}alf[MAXN*2+1];
	inline void str_insert(string s,int num){
		int len=s.length(),now=0;
		fe(i,0,len-1)now=alf[now].trans[s[i]-'a']?alf[now].trans[s[i]-'a']:(alf[now].trans[s[i]-'a']=++tot);
		alf[now].num.push_back(num);
	}
	inline void SAM_insert(int last,int c){
		int cur=alf[last].trans[c],now=alf[last].link;
		alf[cur].len=alf[last].len+1;
		while(now!=-1&&!alf[now].trans[c])alf[now].trans[c]=cur,now=alf[now].link;
		if(now==-1)alf[cur].link=0;
		else{
			int bet=alf[now].trans[c];
			if(alf[bet].len==alf[now].len+1)alf[cur].link=bet;
			else{
				int clone=++tot;
				alf[clone].link=alf[bet].link,alf[clone].len=alf[now].len+1;
				fe(i,0,CHIZ)if(alf[alf[bet].trans[i]].len)alf[clone].trans[i]=alf[bet].trans[i];
				while(now!=-1&&alf[now].trans[c]==bet)alf[now].trans[c]=clone,now=alf[now].link;
				alf[cur].link=alf[bet].link=clone;
			}
		}
	}
	inline void build(){
		alf[0].link=-1;
		#define pii pair<int,int>
		#define mp(a,b) make_pair(a,b)
		queue<pii> q;
		fe(i,0,CHIZ)if(alf[0].trans[i])q.push(mp(0,i));
		while(!q.empty()){
			int u=alf[q.front().first].trans[q.front().second];
			SAM_insert(q.front().first,q.front().second);
			q.pop();
			fe(i,0,CHIZ)if(alf[u].trans[i])q.push(mp(u,i));
		}
		fe(i,1,tot)alf[alf[i].link].ch.push_back(i);
	}
	void dfs(int x){
		int siz=alf[x].ch.size();
		fe(i,0,siz-1)dfs(alf[x].ch[i]),alf[x].vis+=alf[alf[x].ch[i]].vis;
		if(alf[x].num.size())fe(i,0,alf[x].num.size()-1)ans[alf[x].num[i]]+=alf[x].vis;
	}
}S;
string s[MAXN];
int main(){
	int n=read();
	fe(i,1,n){
		cin>>s[i];
		S.str_insert(s[i],i);
	}
	S.build();
	cin>>s[0];
	int len=s[0].length(),now=0,cnt=0;
	fe(i,0,len-1){
		if(S.alf[now].trans[s[0][i]-'a'])now=S.alf[now].trans[s[0][i]-'a'],cnt++;
		else{
			while(now!=-1&&!S.alf[now].trans[s[0][i]-'a'])now=S.alf[now].link;
			if(now!=-1)cnt=S.alf[now].len+1,now=S.alf[now].trans[s[0][i]-'a'];
			else now=0,cnt=0;
		}
		if(cnt==S.alf[now].len)S.alf[now].vis++;
		else S.alf[S.alf[now].link].vis++;
	}
	S.dfs(0);
	fe(i,1,n)printf("%d\n",ans[i]);
	return 0;
}

（u1s1,前两个模板是真的水，我拿假写法都写过了，理论上这一个模板比较强，但要是有锅欢迎激情指出，感激不尽）

看到这里可能有人会想，AC自动机这么好写，何必作贱去写 SAM 呢？但是根据15年的论文，广义SAM是可以在线增量构建的。也就是说我可以做一个强制在线的AC自动机，其他的自动机做得到吗？做得到吗？（夜神月基本手势）

只是我暂时没时间写增量构建，但是理论指导实践，我觉得多半是可行的。

希望有一一天能把这个坑填了（于2021.2.22 夜）

posted @ 2021-02-22 20:31 clockwhite 阅读(335) 评论(1) 收藏举报

刷新页面返回顶部

Clockwhite

你是我梦中千万次的求不得

[学习笔记] SAM——后缀自动机

[学习笔记] SAM——后缀自动机

零.前言

一.概念

1.自动机

2.后缀自动机(Suffix automaton,SAM)

3.状态

4.转移

5.后缀链接

6.论证与清新理解

trie与 parent tree 与后缀链接与状态和后缀树

状态与转移

状态数的证明

转移数的证明

二.构造

CODE

三.应用选讲

1.本质不同子串数

2.第 k 小子串

3.某子串在文本串中的出现次数

4.两个字符串最长公共子串

5.多个字符串最长公共子串

CODE

6.一个串和另一个串的某一区间的最长公共子串

CODE

7.Len(i) 套DP

8.线段树合并维护 Endpos

code

四.一些扩展——广义SAM

CODE

与 AC自动机

CODE

公告

Clockwhite

你是我梦中千万次的求不得

[学习笔记] SAM——后缀自动机

[学习笔记] SAM——后缀自动机

零.前言

一.概念

1.自动机

2.后缀自动机(Suffix automaton,SAM)

3.状态

4.转移

5.后缀链接

6.论证与清新理解

trie与 parent tree 与后缀链接 与 状态 和后缀树

状态与转移

状态数的证明

转移数的证明

二.构造

CODE

三.应用选讲

1.本质不同子串数

2.第 k 小子串

3.某子串在文本串中的出现次数

4.两个字符串最长公共子串

5.多个字符串最长公共子串

CODE

6.一个串和另一个串的某一区间的最长公共子串

CODE

7.Len(i) 套DP

8.线段树合并维护 Endpos

code

四.一些扩展——广义SAM

CODE

与 AC自动机

CODE

公告

trie与 parent tree 与后缀链接与状态和后缀树