SAM（后缀自动机）

SAM

之前听 yxc 讲的时候没有细致的讲是如何构造的，今天难得听到了 yny 讲的 SAM，真的很细致！（当然我可能写不了这么细致）。

定义

对于所有 $e n d p o s$ 集合相同的子串，将其压缩到一个点上（记住定义，一个点指的是 $e n d p o s$ 的集合）。

endpos ：一个串的 $e n d p o s$ 是他这个串的右端点所在的位置。

例： $a b a b a$ 中 $a b a$ 的 $e n d p o s$ 为 $3$ 和 $5$ 。

link ：假设现在有两个点，分别是 $A$ 和 $B$ ，使得 $A ⫋ B$ ，并且 $B$ 的集合大小最小，则 $l i n k [A] = B$ 。

nxt ： $n x t [x] [c]$ 表示在 $x$ 这个点，若在其中的每一个字母后加上 $c$ ，组成的新字符串所对应的 $e n d p o s$ 集。

last ：整个串的 $e n d p o s$ 所对应的点。

len ： $l e n [x]$ 表示 $x$ 这个点中最长的串的长度。

注意：如果一个点没有他的真超集，那么他的 $l i n k$ 为 $0$ 。

性质

对于每个点，endpos 所对应的串的长度一定是连续的。

证明：假设一个串 $C$ ，选两个两个后缀 $A$ 和 $B$ ，使得 $B$ 的长度小于 $A$ ，且 $C$ 和 $A$ 的 $e n d p o s$ 都在同一个点中，因为一个串他的串长越短，他所对应的 $e n d p o s$ 就越多，所以 $C$ 的 $e n d p o s$ 数小于等于 $B$ 的 $e n d p o s$ 数，且 $B$ 的 $e n d p o s$ 数小于等于 $A$ 的 $e n d p o s$ 数，又因为 $A$ 和 $C$ 的 $e n d p o s$ 相同，所以 $B . e n d p o s = A . e n d p o s = C . e n d p o s$ ，所以 $B$ 也在 $A$ 所在的点中。
$n x t [x] [c]$ 中的每一个串后加上 $c$ 后的 $e n d p o s$ 所对应的一定是同一个点，找到 $x$ 这个点中长度最长的那个串，那么剩余的串一定是他的后缀，假设这个点后面有 $c$ ，那么他的后缀后面也全都有 $c$ 这个点，如果没有，那后缀后面也不会有，所以最后的 $e n d p o s$ 一定是一样的。
可以发现每次跳 $l i n k$ 都相当于跳到了一个串的后缀，假设这个后缀的点在原串的位置为 $x$ ，那么 $1 \sim x - 1$ 这些串都和 $1$ 这个串在同一个点中。
同时可以发现，一个点（假设为 $x$ ）中的最短子串长度是 $l e n [l i n k [x]] - 1$ 。

构造

假设现在要新加入一个点 $c$ ，新建一个节点 $u$ ，表示新的长度为 $n + 1$ 的串 $e n d p o s$ 所对应的点。

设 $p = l a s t$ （ $l a s t$ 上面有定义），我们不停地让 $p$ 跳 $l i n k$ ，现在出现了两种情况：

$n x t [p] [c] = 0$ 也就是说在整个串中没有出现过串+ $c$ 这个子串，那么 $n x t [p] [c]$ 可以直接指向 $u$ 。
如果 $n x t [p] [c]! = 0$ ，设 $q = n x t [p] [c]$ ，当然这里也需要分成两类讨论。
1. 若 $l e n [q] = l e n [p] + 1$ ，那么也就是说 $p$ + $c$ 这个点后和 $q$ 这两个串完全相同，那么 $q$ 这个点的 $e n d p o s$ 就加入了 $n + 1$ 这个数，可以发现现在的 $q$ 这个点就是 $u$ 的 $l i n k$ ，因为这个点就是目前 $e n d p o s$ 个数最小，并且是 $u$ 的真超集，如果再跳 $l i n k$ ，那么后缀的长度变短，找到的 $e n d p o s$ 的个数会不降，所以 $l i n k [u] = q$ 。
2. 若不等，那么我们可以发现， $q$ 这个点中串长度小于等于 $l e n [p] + 1$ 的串的 $e n d p o s$ 都会新增一个 $n + 1$ ，但是长度大于 $l e n [p] + 1$ 的并不会新增 $e n d p o s$ ，所以这里我们就被迫把一个点分裂成两个，一个给 $p$ ，一个给 $q$ 中长度大于 $l e n [p] + 1$ 的串，我们新建一个节点 $t$ 来作为分裂成的第一个节点，
  
  考虑这里如何转移，假如当前需要找到 $n x t [q] [y]$ 的值，那么发现在 $n + 1$ 这个位置后面是没有 $y$ 这个字符的，所以说 $n + 1$ 这个 $e n d p o s$ 是无法转移到 $n + 2$ 这个点的，当我们要找 $n x t [q] [y]$ 时，我们的两个点就合并成原先的一个点了，因此 $t$ 这个点的 $n x t$ 要继承 $q$ 的 $n x t$ 。
  
  可以发现，原先 $q$ 的 $l i n k$ 变成了 $t$ 的 $l i n k$ ，并且 $l e n [t] = l e n [p] + 1$ 。
  
  但是 $p$ 的每一个后缀的 $e n d p o s$ 都多了一个 $n + 1$ ，那么如果有原先的 $n x t [p] [c] = q$ ，那么现在多了一个 $e n d p o s$ ，那么 $n x t [p] [c] = t$ 。
  
  最后 $q$ 和 $u$ 的 $l i n k$ 都是 $t$ 。
如果 $p$ 在循环中跳到了 $0$ ，说明 $c$ 这个字符就没在原串中出现过，所以 $l i n k [u]$ 应该为 $0$ ，但是发现 $l i n k [u]$ 本来就是 $0$ ，所以可以直接不管。

最后贴上一个代码（对着理解一下）：

struct node{
    int nxt[27];
    int len,link;
}tr[N];
int cnt[N],lst,tot;

void init(){tr[0].link=-1;}

void insert(int x){
    int p=lst,u=++tot;
    cnt[u]=1;tr[u].len=tr[lst].len+1;
    for (;~p&&!tr[p].nxt[x];p=tr[p].link) tr[p].nxt[x]=u;
    if (~p){
        int q=tr[p].nxt[x];
        if (tr[q].len==tr[p].len+1) tr[u].link=q;
        else{
            int t=++tot;
            copy(tr[q].nxt,tr[q].nxt+26,tr[t].nxt);
            tr[t].link=tr[q].link,tr[t].len=tr[p].len+1;
            for (;~p&&tr[p].nxt[x]==q;p=tr[p].link) tr[p].nxt[x]=t;
            tr[q].link=tr[u].link=t;
        }
    }
    lst=u;
}

posted @ 2023-08-07 20:13 taozhiming 阅读(30) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· 字符串小练习

· edu154

· 【学习笔记】后缀自动机（SAM）

· SAM 学习笔记

· 后缀自动机

阅读排行：
· 地球OL攻略 —— 某应届生求职总结
· 周边上新：园子的第一款马克杯温暖上架
· Open-Sora 2.0 重磅开源！
· 提示词工程——AI应用必不可少的技术
· .NET周刊【3月第1期 2025-03-02】

公告

昵称： taozhiming
园龄： 1年10个月
粉丝： 8
关注： 5

+加关注

2025年3月

日

一

二

三

四

五

六

taozhiming

SAM（后缀自动机）

SAM

定义

性质

构造

公告

搜索

常用链接

最新随笔

随笔分类 (20)

随笔档案 (21)

阅读排行榜

评论排行榜

推荐排行榜

最新评论

这么好的文章，为什么不能点👎