后缀自动机

后缀自动机，是一种线性的字符串处理工具：

引用一下陈立杰的PPT

有限状态自动机的功能是识别字符串，令一个自动机A，若它能识别字符串S，就记为A(S)=True，否则A(S)=False。
自动机由五个部分组成，alpha：字符集，state：状态集合，init：初始状态，end：结束状态集合，trans：状态转移函数。
不妨令trans(s,ch)表示当前状态是s，在读入字符ch之后，所到达的状态。
如果trans(s,ch)这个转移不存在，为了方便，不妨设其为null，同时null只能转移到null。
null表示不存在的状态。
同时令trans(s,str)表示当前状态是s，在读入字符串str之后，所到达的状态

S为自动机的节点，那么我们可以这样定义S

struct S{
    int c[26],fa,val;//26为字符集的大小，通常我们认为其为常数
}T[N];

那么自动机A能识别的字符串就是所有使得 trans(init,x) ⊂ end的字符串x。令其为Reg(A)。
从状态s开始能识别的字符串，就是所有使得 trans(s,x) ⊂ end的字符串x。
令其为Reg(s)。

给定字符串S
S的后缀自动机suffix automaton(以后简记为SAM)是一个能够识别S的所有后缀的自动机。
即SAM(x) = True，当且仅当x是S的后缀
同时后面可以看出，后缀自动机也能用来识别S所有的子串。

考虑字符串”aabbabd”
我们可以讲该字符串的所有后缀插入一个Trie中，就像右图那样。那么初始状态就是根，状态转移函数就是这颗树的边，结束状态集合就是所有的叶子。
注意到这个结构对于长度为N
的串，会有O(𝑁^2)的节点。

那么，我们就要寻找最简状态的后缀自动机：

假如我们得到了这个最简状态后缀自动机SAM。
我们令ST(str)表示trans(init,str)。就是初始状态开始读入字符串str之后，能到达的状态。

令母串为S，它的后缀的集合为Suf，它的连续子串的集合为Fac。从位置a开始的后缀为Suffix(a)。 S[l,r)表示S中[l,r)这个区间构成的子串。下标从0开始。
对于一个字符串s，如果它不属于Fac，那么ST(s) = null。因为s后面加上任何字符串都不可能是S的后缀了，没有理由浪费空间。
同时如果字符串s属于Fac，那么ST(s) ≠ null。因为s既然是S的子串，就可以在后面加上一些字符使得其变成S的后缀。我们既然要识别所有的后缀，就不能放过这种可能性。

我们不能对每个s∈Fac都新建一个状态，因为Fac的大小是O(𝑁2)的。

我们考虑ST(a)能识别哪些字符串，即Reg(ST(a))
字符串x能被自动机识别，当且仅当x∈Suf。
ST(a)能够识别字符串x，当且仅当ax∈Suf。因为我们已经读入了字符串a了。
也就是说ax是S的后缀。那么x也是S的后缀。Reg(ST(a))是一些后缀集合。
对于一个状态s，我们唯一关心的是Reg(s)。

说句人话，后缀自动机的核心是缩点，一颗后缀树上度为一的连续的点是没有必要单独存储的，我们可以将其缩成一个点表示一段区间，那么我们可以证明点的个数是不会超过2n-1个的。那么最简后缀自动机的节点数也是这样的。

我们假设这样一个节点a

如果a在S中的[l,r)位置出现，那么他就能识别S从r开始的后缀。
不妨令Right(a)=那么Reg(ST(a))就完全由Right(a)决定。

那么对于两个子串𝑎,𝑏∈𝐹𝑎𝑐如果Right(a) = Right(b),那么ST(a) = ST(b)。
所以一个状态s,由所有Right集合是Right(s)的字符串组成。
不妨令r∈𝑅𝑖𝑔𝑕𝑡(𝑠)，那么只要给定子串的长度len，该子串就是S[r-len,r)。即给定Right集合后，再给出一个长度就可以确定子串了。
考虑对于一个Right集合，容易证明如果长度𝑙,𝑟合适，那么长度𝑙≤𝑚≤𝑟的m也一定合适。所以合适长度必然是一个区间。
不妨令s的区间是[Min(s),Max(s)]

我们考虑两个状态a,b。他们的Right集合分别为Ra,Rb。
假设Ra和Rb有交集，不妨设𝑟∈𝑅𝑎 ∩𝑅𝑏。
那么由于a和b表示的子串不会有交集，所以[Min(a),Max(a)]和[Min(b),Max(b)]也不会有交集。不妨令Max(a)<Min(b)。那么a中所有长度都比b中短，由于都是由r往前，所以a中所有串都是b中所有串的后缀。因此a中某串出现的位置，b中某串也必然出现了。所以𝑅𝑎⊂𝑅𝑏。既Ra是Rb的真子集。
那么，任意两个串的Right集合，要么不相交，要么一个是另一个的真子集。

我们可以看出Right集合实际上构成了一个树形结构。不妨称其为Parent树。
在这个树中，叶子节点的个数只有N个，同时每内部个节点至少有2个孩子，容易证明树的大小必然是O(N)的。
令一个状态s，我们令fa=Parent(s)表示上面那个图中，它的父亲。那么𝑅𝑖𝑔𝑕𝑡𝑓𝑎⊃𝑅𝑖𝑔𝑕𝑡𝑠，并且Right(fa)的大小是其中最小的。
考虑长度，s的范围是[Min(s),Max(s)]，为什么长度Min(s)-1为什么不符合要求？可以发现肯定是因为出现的地方超出了Right(s)。同时随着长度的变小，出现的地方越来越多，那么Min(s)-1就必然属于fa的范围。那么
Max(fa) = Min(s)-1

我们已经证明了状态的个数是O(N)的，为了证明这是一个线性大小的结构，我们还需要证明边的大小是O(N)的。
如果trans(a,c) == null，我们就没有必要储存这条边，我们只需要储存有用的边。
不妨trans(a,c)=b的话，就看成有一条𝑎→𝑏的标号为c的边。
我们首先求出一个SAM的生成树（注意，跟之前提到的树形结构没有关系），以init为根。

那么令状态数为M，,生成树中的边最多只有M-1条，接下来考虑非树边。对于一条非树边a→b标号为c。
我们构造：
生成树中从根到状态𝑎的路径+(a->b)+b到任意一个end状态。
可以发现这是一条从init到end状态的路径，由于这是一个识别所有后缀的后缀自动机，因此这必然是一个后缀。
那么一个非树边可以对应到多个后缀。我们对每个后缀，沿着自动机走，将其对应上经过的第一条非树边。
那么每个后缀最多对应一个非树边，同时一个非树边至少被一个后缀所对应，所以非树边的数量不会超过后缀的数量。
所以边的数量也不会超过O(N)

由于每个子串都必然包含在SAM的某个状态里。
那么一个字符串s是S的子串，当且仅当，ST(s)!=null
那么我们就可以用SAM来解决子串判定问题。
同时也可以求出这个子串的出现个数，就是所在状态Right集合的大小

在一个状态中直接保存Right集合会消耗过多的空间，我们可以发现状态的Right就是它Parent树中所有孩子Right集合的并集，进一步的话，就是Parent树中它所有后代中叶子节点的Right集合的并集。
那么如果按dfs序排列，一个状态的right集合就是一段连续的区间中的叶子节点的Right集合的并集，那么我们也就可以快速求出一个子串的所有出现位置了。
树的dfs序列：所有子树中节点组成一个区间。

我们的构造算法是Online的，也就是从左到右逐个添加字符串中的字符。依次构造SAM。
这个算法实现相比后缀树来说要简单很多，尽管可能不是非常好理解。
让我们先回顾一下性质

状态s，转移trans，初始状态init，结束状态集合end。
母串S，S的后缀自动机SAM(Suffix Automaton的缩写)。
Right(str)表示str在母串S中所有出现的结束位置集合。
一个状态s表示的所有子串Right集合相同,为Right(s)。
Parent(s)表示使得Right(s)是Right(x)的真子集，并且Right(x)的大小最小的状态x。
Parent函数可以表示一个树形结构。不妨叫它Parent树。

一个Right集合和一个长度定义了一个子串。
对于状态s，使得Right(s)合法的子串长度是一个区间，为| [Min(s),Max(s)]
Max(Parent(s)) = Min(s)-1。
SMA的状态数量和边的数量，都是O(N)的。
不妨令trans(s,ch)==null表示从s出发没有标号为ch的边，

考虑一个状态s,它的Right(s)=𝑟1,𝑟2,…,𝑟𝑛 ，假如有一条s→t标号为c的边，考虑t的Right集合，由于多了一个字符，s的Right集合中，只有S[𝑟𝑖]==c的符合要求。那么t的Right集合就是{𝑟𝑖+1|S[ri]==c}
那么如果s出发有标号为x的边，那么Parent(s)出发必然也有。
同时，对于令f=Parent(s)，
Right(trans(s,c)) ⊆ Right(trans(f,c))。
有一个很显然的推论是Max(t)>Max(s)

我们每次添加一个字符，并且更新当前的SAM使得它成为包含这个新字符的SAM。
令当前字符串为T，新字符为x,令T的长度为L
SAM(T) →SAM(Tx)
那么我们新增加了一些子串，它们都是串Tx的后缀。
Tx的后缀，就是T的后缀后面添一个x

那么我们考虑所有表示T的后缀(也就是Right集合中包含L)的节点𝑣1,𝑣2,𝑣3,…。
由于必然存在一个Right(p)={L}的节点p(ST(T))。那么𝑣1,𝑣2,…,𝑣k由于Right集合都含有L，那么它们在Parent树中必然全是p的祖先。可以使用Parent函数得到他们。
同时我们添加一个字符x后，令np表示ST(Tx)，则Right(np) ={L+1}
不妨让他们从后代到祖先排为𝑣1=𝑝,𝑣2,…,𝑣k=root。

考虑其中一个v的Right集合=𝑟1,𝑟2,…,𝑟𝑛=𝐿。
那么在它的后面添加一个新字符x的话，形成新的状态nv的话，只有S[𝑟𝑖] = x的𝑟𝑖那些是符合要求的。
同时在之前我们知道，如果从v出发没有标号为x的边(我们先不看𝑟𝑛)，那v的Right集合内就没有满足这个要求的𝑟𝑖 。
那么由于𝑣1,𝑣2,𝑣3,… 的Right集合逐渐扩大，如果𝑣𝑖出发有标号为x的边，那么𝑣𝑖+1出发也肯定有。
对于出发没有标号为x的边的v，它的Right集合内只有𝑟𝑛是满足要求的，所以根据之前提到的转移的规则，让它连一条到np标号为x的边。

令𝑣𝑝为𝑣1,𝑣2,…,𝑣k中第一有标号为x的边的状态。
考虑𝑣𝑝的Right集合=𝑟1,𝑟2,…,𝑟𝑛 ，令trans(𝑣𝑝,x)=q
那么q的Right集合就是{𝑟𝑖+1}，S[𝑟𝑖 ]=x的集合(注意到这是更新之前的情况，所以𝑟𝑛是不算的)。
注意到我们不一定能直接在q的Right集合中插入L+1。

那么我们新建一个节点nq，使Right(nq) = Right(q) ∩𝐿+1
同时可以看出Max(nq) = Max(𝑣𝑝)+1。
那么由于Right(q)是Right(nq)的真子集，所以Parent(q) = nq。
同时Parent(np) = nq。
并且容易证明Parent(nq) = Parent(q) (原来的)

接下来，如果新建了节点nq我们还得处理。
回忆： 𝑣1,𝑣2,…,𝑣k是所有Right集合包含{L}的节点按后代到祖先排序，其中𝑣𝑝是第一个有标号为x的边的祖先。x是这轮新加入的字符。
由于𝑣p,…,𝑣k都有标号为x的边，并且到达的点的Right集合，随着出发点Right集合的变大，也会变大，那么只有一段𝑣p,…,𝑣𝑒，通过标号为x的边，原来是到结点q的。回忆：q=Trans(𝑣p,x)。
那么由于在这里q节点已经被替换成了nq,我们只要把𝑣p,…,𝑣𝑒的Trans(*,x)设为nq即可。

代码实现

inline int Sam(int x,int last){
    int np=++tot;
    T[np].val=T[last].val+1;
    for(;last&&(!T[last].c[x]);last=T[last].fa) T[last].c[x]=np;
    if (!last) T[np].fa=1;
    else {
        int q=T[last].c[x];
        if (T[last].val+1==T[q].val) T[np].fa=q;
        else {
            int nq=++tot;  T[nq]=T[q];
            T[nq].val=T[last].val+1;
            T[q].fa=T[np].fa=nq;
            for (;last&&T[last].c[x]==q;last=T[last].fa) T[last].c[x]=nq;
        }
    }return np;
}

后附洛谷【模板】后缀自动机的源代码：

//#pragma optimize("-O2")
#include<bits/stdc++.h>
#define N 3000003
#define max(a,b) ((a)>(b)?(a):(b))
#define min(a,b) ((a)<(b)?(a):(b))
using namespace std;
struct S{
    int c[26],fa,val;
}T[N];
int tot=1,tmp,n,len,c[N],id[N],now,ti,x,last,siz[N];
long long ans;
char ch[N];
inline int Sam(int x,int last){
    int np=++tot;
    T[np].val=T[last].val+1;
    for(;last&&(!T[last].c[x]);last=T[last].fa) T[last].c[x]=np;
    if (!last) T[np].fa=1;
    else {
        int q=T[last].c[x];
        if (T[last].val+1==T[q].val) T[np].fa=q;
        else {
            int nq=++tot;  T[nq]=T[q];
            T[nq].val=T[last].val+1;
            T[q].fa=T[np].fa=nq;
            for (;last&&T[last].c[x]==q;last=T[last].fa) T[last].c[x]=nq;
        }
    }
    siz[np]=1;
    return np;
}
int main () {
    freopen("a.in","r",stdin);
   scanf("%s",ch); len=strlen(ch);last=1; 
   for (int i=0;i<len;i++) last=Sam(ch[i]-'a',last);
   for (int i=1;i<=tot;i++) c[T[i].val]++;
   for (int i=1;i<=len;i++) c[i]+=c[i-1];
   for (int i=1;i<=tot;i++) id[c[T[i].val]--]=i;
   for (int i=tot;i;i--) {
         int p=id[i];
         siz[T[p].fa]+=siz[p];
         if (siz[p]>1) ans=max(ans,1ll*siz[p]*T[p].val);
   }
   printf("%lld\n",ans); return 0;
}

posted @ 2018-01-12 15:45 泪寒之雪阅读(2638) 评论(1) 收藏举报

刷新页面返回顶部

殇雪

万物皆虚，万物皆允

后缀自动机

公告