SA 学习笔记

后缀数组 $S A$

后缀数组，维护的是原字符串的每一个后缀，将其按照字典序大小排序，得到一些有用的信息。

首先明确几个数组的定义：

sa[] //sa[i] 表示字典序第 i 小的后缀在原串中的起始位置为 sa[i]
rk[] //rk[i] 表示原串从 i 位置开始的后缀的字典序的排名
h[]  //h[i] 表示排名为第 i 的后缀与排名为第 i-1 的后缀的最长公共前缀

接下来我们考虑每个数组要怎么求解。

求解 $r k$

对于 $r k$ 数组我们考虑倍增法求解，我们从长度为 $1$ 开始，每次将长度翻倍，得到新的长度中的排名。

具体的，对于每一个位置 $j$ ，已经求解了长度为 $i$ ，准备求解长度为 $2 i$ 的。也就是说我们当前已经求解出了 $s [j - (j + i - 1)]$ 和 $s [(j + i) - (j + 2 i - 1)]$ 这两个字符串的排名，根据字典序的定义，优先比较靠前的串，因此我们将前一个串的排名设为 $j$ 这个位置的第一关键字，将第二个串的排名设为 $j$ 这个位置的第二关键字，然后进行双关键字基数排序 ( 可以用 $s o r t$ ) 但是复杂度会多一个 $l o g$ ，排完序后就可以得到 $s [j - (j + 2 i - 1)]$ 这个串的排名。不断进行倍增，就可以求出每个后缀的排名了。

特别的，对于 $j + i > n$ 的，我们直接将 $0$ 设为 $j$ 位置的第二关键字即可。

求解 $s a$

求完 $r k$ 之后，根据定义来看，求 $s a$ 就是一行的事。

sa[rk[i]]=i

求解 $h$

$h$ 数组在 $s a$ 的题目中相当常见，对于 $h$ 有两条关键的性质。

排名为 $i$ 的后缀与排名为 $j$ 的后缀的最长公共前缀 $= m i n_{i = l + 1}^{r} h_{i}$
$h (r k_{i}) \geq h (r k_{i - 1}) - 1$

第一条性质的正确性是显然的。

我们重点来关注第二条。

我们设 $k = s a [r k [i - 1] - 1]$ ，即 $h (r k_{i - 1}) = L c p (k, i - 1)$

若 $h (r k_{i - 1}) \leq 1$ ，结论显然成立
若 $h (r k_{i - 1}) > 1$ ，此时 $L c p (k, i - 1) > 1$ ，我们把两个串的首位丢掉，也就是 $i$ 和 $k + 1$ 这两个串，因此 $L c p (k + 1, i) = L c p (k, i - 1) - 1$ 。由于 $k$ 排在 $i - 1$ 前面，因此 $k + 1$ 也排在 $i$ 前面，根据第一条性质，我们可以得到 $m i n_{i = r k [k] + 1}^{r k [i]} h_{i} = h (r k_{i} - 1) - 1$ ，所以 $h (r k_{i}) \geq h (r k_{i - 1}) - 1$ 。得证。

根据第二条性质，我们可以按照 $r k$ 数组的顺序，从小到大依次求解 $h (r k_{1})$ 、 $h (r k_{2})$ 、....... $h (r k_{n})$ ，每次答案至少是上一次的答案 $- 1$ ，因此就可以在 $o (n)$ 的复杂度内求解。

code

int flag=0,rk[N],sa[N],h[N],fi[N],se[N],b[N],g[N],tp[155];

inline void Round(int *a) {
	int mx=0;
	for(int i=1;i<=n;i++) mx=max(mx,a[i]);
	for(int i=0;i<=mx;i++) b[i]=0;
	for(int i=1;i<=n;i++) b[a[i]]++;
	for(int i=1;i<=mx;i++) b[i]+=b[i-1];
	for(int i=n;i>=1;i--) rk[g[i]]=b[a[g[i]]]--;
	for(int i=1;i<=n;i++) g[rk[i]]=i;
}

inline void Qsort() {
	int idx=1;
	for(int i=1;i<=n;i++) rk[i]=g[i]=i;
	Round(se); Round(fi);
	for(int i=2;i<=n;i++)
		rk[g[i]]=(fi[g[i]]==fi[g[i-1]] && se[g[i]]==se[g[i-1]])?rk[g[i-1]]:++idx;
	if(idx==n) flag=1;
}

inline void Getsa() {
	mem(tp); for(int i=1;i<=n;i++) tp[s[i]-'a']=1;
	for(int i=1;i<155;i++) tp[i]+=tp[i-1];
	for(int i=1;i<=n;i++) rk[i]=tp[s[i]-'a'];
	for(int i=1;i<=n && !flag;i<<=1) {
		for(int j=1;j<=n;j++)
			fi[j]=rk[j], se[j]=j+i>n?0:rk[j+i];
		Qsort();
	}
	for(int i=1;i<=n;i++) sa[rk[i]]=i;
}

inline void Geth() {
	int k=0;
	for(int i=1,j;i<=n;i++) {
		if(k) --k;
		j=sa[rk[i]-1];
		while(s[i+k]==s[j+k] && s[i+k]!='|') k++;
		h[rk[i]]=k;
	}
}

~~板子是根据自己的理解写出来的，比较屑，常数也比较大~~。

一些经典的套路、例题

P2178 [NOI2015] 品酒大会

对于这一类的题目，可以对于 $h$ 数组从大到小排序，然后依次将 $h_{i}$ 表示的串用并查集连接起来，用并查集维护信息。

[NOI2016] 优秀的拆分

对于这一类，求解与连续重复 $k$ 次的字符串相关的题目，都可以考虑通过设置关键点的方法，做到在调和级数的复杂度之内求解。

具体的
我们从小到大枚举循环节的长度 $L$ ，然后依次枚举所有的关键点： $L$ 、 $2 L$ 、....... $k L$ 。

假设当前枚举到了关键点 $i$ ,我们处理所有的满足左端点在区间 $(i - L, i]$ 之内的，循环次数大于等于 $2$ 的串的贡献。

我们设 $A = L s p (i, i + L)$ ， $B = L c p (i, i + L)$ 。
首先为了限制左端点的位置，我们令 $A = m i n (A, L)$ 。

于是我们考虑的这些串中最大循环次数为 $k = ⌊ \frac{A + B - 1}{L} ⌋ + 1$ ，这样的串共有 $z = m i n (A, (A + B - 1) \mod L + 1)$ 个。

最后再单独考虑循环次数为 $1$ 的串的贡献(这样可以减少分类讨论的难度)。

这种方法既可以用于求最值，也可以用来求方案数，时间复杂度 $o (n \ln n)$ 。

P4248 [AHOI2013]差异

统计每一个子串作为 $L c p$ 的次数，可以在 $h$ 数组上面跑单调栈。

P4070 [SDOI2016]生成魔咒

动态维护 $h$ 数组，答案为字符串的本质不同子串个数。 $a n s = \frac{n (n + 1)}{2} - \sum_{i = 1}^{n} h_{i}$ 。

其余，待更.......

posted @ 2022-10-31 18:34 _YangZJ 阅读(68) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· 2023.2.11-2.12

· 2023.1.12

· 后缀数组（SA）学习笔记

· 后缀数组 (SA) 学习笔记

· SA 学习笔记

阅读排行：
· 25岁的心里话
· 闲置电脑爆改个人服务器（超详细） #公网映射 #Vmware虚拟网络编辑器
· 零经验选手，Compose 一天开发一款小游戏！
· 因为Apifox不支持离线，我果断选择了Apipost！
· 通过 API 将Deepseek响应流式内容输出到前端

公告

昵称： _YangZJ
园龄： 2年4个月
粉丝： 10
关注： 23

+加关注

2025年3月

日

一

二

三

四

五

六

Loading

Oscar

SA 学习笔记

后缀数组 $S A$

求解 $r k$

求解 $s a$

求解 $h$

code

P2178 [NOI2015] 品酒大会

[NOI2016] 优秀的拆分

P4248 [AHOI2013]差异

P4070 [SDOI2016]生成魔咒

公告

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论

Loading

后缀数组SA

求解 rk

求解 sa

求解 h

code

公告

常用链接

随笔档案

后缀数组 $S A$

求解 $r k$

求解 $s a$

求解 $h$