基础字符串总结

讨厌字符串...

关于字符串的一些定义：

$| s |$ 表示字符串 $s$ 的长度。
$s_{l, r}$ 表示字符串 $s$ 位置 $l \sim r$ 上的字符所连接成的子串。
$lcp (s, t)$ 表示字符串 $s$ 与 $t$ 的最长公共前缀， $lcs (s, t)$ 则表示为最长公共后缀。

1. 哈希(Hash)

没什么可说的，将字符串表示为 $p$ 进制数，模数为 ^#%@&$。

可能有哈希冲突，通常可用双哈希(~~不过我懒~~)。

一些题也可以用哈希冲过去，是一个不错的工具。

2. kmp算法

3. 后缀数组(SA)

一个稍难但极好用的算法。

3.1 定义

设 $s u_{i}$ 表示字符串 $s$ 中以 $s_{i}$ 开头的后缀。
$r k_{i}$ 表示 $s u_{i}$ 在所有后缀中的字典序排名。
$s a_{i}$ 表示 $s$ 所有后缀中排名为 $i$ 的后缀的开始位置，其与 $r k$ 互逆，即 $s a_{r k_{i}} = r k_{s a_{i}} = i$ 。
$h t_{i}$ 表示 $s u_{s a_{i - 1}}$ 与 $s u_{s a_{i}}$ 的最长公共前缀，即 $| l c p (s u_{s a i - 1}, s u_{s a_{i}}) |$ ，且 $h t_{1} = 0$ 。

3.2 后缀排序

后缀排序算法可以求出后缀数组，用的是倍增法。

假设我们已经求出来所有 $2^{w}$ 级的子串，即所有 $s_{i, i + 2^{w} - 1}$ 的排名 $r k_{i}$ ，则我们可以通过拼接 $r k_{i}$ 与 $r k_{i + 2^{w}}$ 来求出 $2^{w + 1}$ 级的子串，所以我们可以通过构造 $(r k_{i}, r k_{i + 2^{w}})$ 的二元组，经过排序得到所有 $2^{w + 1}$ 级子串的排名，直接快排是 $O (n \log^{2} n)$ 的，观察到排名的值域非常小，可以通过基数排序来优化到 $O (n \log n)$ ，不过这样常数还是极大。

考虑一种优化，我们发现对于二元组的第二维，如果 $i + 2^{w} > n$ 则我们可以直接排到最前面，然后我们把剩下的按照 $s a_{i}$ 的顺序依次填入 $s a_{i} - 2^{w}$ 即可，这样我们就可以用桶排序直接排第一维，常数较小。

(还有 DC3 $O (n)$ 算法，不过不想学 : ( )

[模版]后缀排序

int n,m,p;
char c[N]; 
int sa[N],rk[N],ork[N<<1],id[N],cnt[N];
bool cmp(int a,int b,int w){return ork[a] == ork[b] && ork[a + w] == ork[b + w];}
//若与相等的不加，否则加
int main(){
	scanf("%s",c+1);
	n = strlen(c+1),m = 128;
	for(int i = 1;i <= n;i++)cnt[rk[i] = c[i]]++;
	for(int i = 1;i <= m;i++)cnt[i] += cnt[i-1];
	for(int i = n;i >= 1;i--)sa[cnt[rk[i]]--] = i;

	for(int w = 1;;w <<= 1,m = p,p = 0){
		for(int i = n - w + 1;i <= n;i++)id[++p] = i;
		for(int i = 1;i <= n;i++)
			if(sa[i] > w)id[++p] = sa[i] - w;
		memset(cnt,0,sizeof cnt);
		for(int i = 1;i <= n;i++)cnt[rk[i]]++;
		for(int i = 1;i <= m;i++)cnt[i] += cnt[i-1];
		for(int i = n;i >= 1;i--)sa[cnt[rk[id[i]]]--] = id[i];
		p = 0;
		memcpy(ork,rk,sizeof rk);
		for(int i = 1;i <= n;i++)rk[sa[i]] = cmp(sa[i-1],sa[i],w) ? p : ++p;
		if(p == n)break;
	}
	for(int i = 1;i <= n;i++)printf("%d ",sa[i]);
	printf("\n");

	return 0;

}

3.3 height 数组

求 $h t$ 主要依据的是一个性质： $h t_{r k_{i}} \geq h t_{r i_{i - 1}} - 1$ 。

(图源为 Alex_wei)

证明，首先我们设 $p$ 为 $s a_{r k_{i - 1} - 1}$ ，即 $i - 1$ 后缀的前一名，则若 $h t_{r k_{i - 1}} > 1$ ，则必然有 $s_{i} = s_{p + 1}$ ，又因为 $p$ 的排名小于 $i - 1$ ，则 $p + 1$ 的排名一定小于 $i$ ，而排名在 $p + 1$ 与 $i$ 之间的 LCP 长度一定不小于 $h t_{r k_{i - 1}} - 1$ (因为字典序是递增的)，即得 $h t_{r k_{i}} \geq h t_{r k i - 1} - 1$ ，得证。

所以我们可以 $O (n)$ 求出 $h t$ 数组。

for(int i = 1;i <= n;i++){
	if(p)p--;
	while(c[i + p] == c[sa[rk[i] - 1] + p])p++;
	ht[rk[i]] = p;
}

3.4 应用

3.4.1 求两个后缀的 LCP

设 $lcp (i, j) = lcp ({su}_{i}, {su}_{j})$ ，若 $i \neq j$ 则有：

lcp (i, j) = {min}_{k = m i n (r k_{i}, r k_{j}) + 1}^{m a x (r k_{i}, r k_{j})} h t_{k}

即 $i$ 与 $j$ 的后缀最大公共前缀是在两排名之间 $h t$ 数组最小值，可以 ST 表维护。

3.4.2 本质不同子串个数

首先总数有 $(\binom{n + 1}{2})$ 。

我们考虑重复子串，对于从 $i$ 开始的子串，重复的子串个数即最长公共前缀长度，即 $h t_{r k_{i}}$ 。

得到本质不同子串个数为: $(\binom{n + 1}{2}) - \sum_{i = 2}^{n} h t_{i}$ 。

P2408 不同子串个数
 模板代码

3.4.3 结合单调栈

我们观察 $h t$ 数组，可以把其看作 $n$ 个矩形的并，而知周所众单调栈可以解决类似问题，如我们要求 $\sum_{1 \leq i < j \leq n} lcp ({su}_{i}, {su}_{j})$ ，我们考虑依据排名依次加入，则可以看作加入一个宽为 $1$ 高为 $h t_{i}$ 的矩形，而我们求得答案即矩形面积和，即可单调栈维护，复杂度 $O (n)$ 。

P4248 [AHOI2013] 差异
 模板代码

3.5 例题

I P4051 [JSOI2007] 字符加密

复制一遍拼下，然后就是板子。

II P3763 [TJOI2017] DNA

首先我们把 $S_{0}$ 串与 $S$ 拼接起来(常用技巧)，中间补个分割符 #，跑个后缀数组。

然后我们考虑每个 $i$ 与 $S$ 匹配，我们假设当前已经匹配长度为 $p - 1$ 的串了，则我们可以找出 $| l c p (i + p - 1, | S_{0} | + p + 1) |$ ，ST 表维护即可，我们循环三次，若匹配长度超过 $| S |$ 则答案加 $1$ 。

复杂度 $O (n \log n)$ 。

代码

III P3181 [HAOI2016] 找相同字符
答案就是一些 $lcp (i, j)$ 的和。

我们首先拼接一下，然后我们考虑后缀的贡献，只需要跑三遍 SA + 单调栈 即可(即总的贡献 - 两字符串自己对自己的贡献)。

代码

IV P4070 [SDOI2016] 生成魔咒

首先可以想到本质不同子串，但本题会加字符，如果我们加在字符串尾部的话，整个字符串的后缀都会改变，这是不好的，所以我们考虑反转倒序加入，这样字符串仅仅只是多了一个后缀，其他后缀都不变，考虑如何求不同子串，即求，当前后缀与所有后缀的最长前缀，我们只需维护一个 $s e t$ ，考虑当前排名前后的 $lcp$ 即可。

复杂度 $O (n \log n)$ 。

代码

V P5341 [TJOI2019] 甲苯先生和大中锋的字符串

题目即求字符串中出现次数恰好为 $k$ 的子串中，长度出现次数最多的长度是多少。

我们考虑如何找恰好出现 $k$ 次的子串，在每个后缀字符串中，我们发现出现 $k$ 次，即在 $h t$ 数组里有长度为 $k$ 的连续排列(因为排序后相同的前缀一定在一个连续的区间)，则可以枚举排名，假设当前为 $i$ ，则我们只需要找到 $i \sim i + k - 1$ 的最长前缀即可，ST 表即可，而又因为恰好，这说明不能有长度小于等于 $lcp (i - 1, i)$ 与 $lcp (i + k - 1, i + k)$ 的子串(因为超过 $k$ 次了)，这样我们差分一下，找个最大值即可。

复杂度 $O (n \log n)$ ，注意多组数据， $i + k$ 可能会越位，注意清空。

代码

VI P2463 [SDOI2008] Sandy 的卡片

首先有差分，然后转化为求 $n$ 个串的最长公共子串。

然后拼接到一起，考虑在 $n$ 个串中选出 $n$ 个起点，则答案即为 $n$ 个起点最小与最大 $r k$ 之间 $h t$ 最小值，即 $max_{1 \leq l < r \leq n} {min}_{k = l + 1}^{r} h t_{k}$ ，条件就是 $[l, r]$ 的排名区间内必须包含 $n$ 个子串的至少一个点，可以用桶简单处理，外层可以双指针处理，内层可以 ST 表 也可以 单调队列。

复杂度 $O (n \log n)$ ，若 DC3 + 单调队列则为 $O (n)$ 。

代码

VII P4094 [HEOI2016/TJOI2016] 字符串

首先我们知道，一个后缀 $i$ 与一些后缀的 $lcp$ 是与 $r k_{i}$ 最近的后缀的 $r k$ 值的 $lcp$ ，根据 应用I 易证，所以我们只需要找到区间 $a \sim b$ 中 $r k_{c}$ 的 前后继，可用 可持久化线段树 解决，当然也可以用可持久化平衡树。

但是这是错的，原因是因为有右界，导致我们需要对每个答案取 $m i n$ ，导致 $r k_{c}$ 的 前后继 不一定最大(可能被取 $m i n$ 了)，我们需要二分 $m i d$ ，单调性是显然的，则我们只需要找区间 $[a, b - m i d + 1]$ 中的结果即可，码量稍大(约 4K)。

: )

最后别忘记与 $d - c + 1$ 取 $m i n$ ，复杂度 $O (n \log^{2} n)$ 。
~~为啥暴力 SA 跑的比正解快几十倍？~~

代码

VIII P2178 [NOI2015] 品酒大会

好题，首先我们考虑 r 相似 的性质，可以发现 r 相似，即在 $h t$ 数组中一段连续区间 $[l, r]$ 使得任意 $i \in [l, r]$ 都有 $h t_{i} \geq k$ ，则该排名区间任意两个后缀都有 r 相似，这样的操作可以用并查集维护 $h t$ 数组中大于等于 $k$ 的区间，我们只需要从大到小枚举 $k$ ，合并即可。

然后考虑算答案，第一问是好求的，在并查集合并时加上 $s i z e_{x} \times s i z e_{y}$ 即可，第二问有乘积，负负得正，我们需要维护并查集内 最大值，次大值，最小值，次小值，则答案即为 $m a x (m x 1 \times m x 2, m i 1 \times m i 2)$ 。

复杂度 $O (n \log n)$ ，若 SA 用 DC3 则复杂度为 $O (n α (n))$ 。

~~这个 $O$ 好好看 : )~~

代码

IX CF822E Liar

好题，先拼接，题目中有一句话是 "按照原顺序合并"，这启发我们可以枚举每个 $i$ ，贪心找 $lcp$ ，复杂度是 $O (n^{2})$ 的。

观察数据范围看到 $x$ 较小，可以考虑 DP，设 $f_{i, j}$ 表示在前 $i - 1$ 个字符组成的字符串中，选最多 $j$ 个不相交的子串所构成字符串与 $T$ 串前缀的最长匹配长度。

对于每一个 $f_{i, j}$ ，令 $k = lcp (i, l 1 + 2 + f_{i, j})$ ，则若不匹配 $i$ ，则 $f_{i + 1, j} \leftarrow max (f_{i + 1, j}, f_{i, j})$ ；若匹配 $i$ ，则 $f_{i + k, j + 1} \leftarrow max (f_{i + k, j + 1}, f_{i, j} + k)$ 。

复杂度 $O (n \log n + n x)$ 。

代码

X P1117 [NOI2016] 优秀的拆分

神仙题，~~不过 $O (n^{2})$ 95pts 谁写正解啊!~~，首先 $A A B B$ 可拆分，设 $f_{i} / g_{i}$ 表示以 $i$ 结尾/开头的 $A A$ 造型方案数，则答案即为 $\sum_{i = 1}^{n - 1} f_{i} \times g_{i + 1}$ 。

然后就牛了，我们钦定一个 $l e n$ ，我们每隔 $l e n$ 标记一个点，则 $A A$ 需要恰好经过两个点，我们假设 $i, j (i + l e n = j)$ ，我们令 $l = lcs (i, j)$ ， $r = lcp (i + 1, j + 1)$ ，则若 $l + r \geq l e n$ ，则该区间存在 $A A$ ，考虑 $f$ ，可知结尾点可以是 $[j + m a x (0, l e n - l), j + m i n (l e n - 1, r)]$ 区间内的点，差分即可， $g$ 同理。

不懂的可以画图，下图绿色部分即可用起点区间，棕色部分即可以结尾区间。

枚举 $l e n$ 的复杂度是调和级数的，总复杂度 $O (T n (\log n + \ln n))$ 。

代码

XI P4081 [USACO17DEC] Standing Out from the Herd P
~~神秘题。~~

首先拼接，注意这样多个串拼接要用 不同拼接符号，所有字串总答案即 $(\binom{n + 1}{2})$ 。

然后我们按排名枚举，对于每个 $i$ ，我们需要知道前面所有后缀的 $lcp$ ，即 $h t_{i}$ ，而且要知道后面 不是当前字符串 的 $lcp$ ，所以我们可以找到每一段 在同一字符串 中的区间 $[l, r]$ ，倒序依次减去 $max (h t_{i}, {min}_{k = i + 1}^{r + 1} h t_{k})$ 的贡献，复杂度是 $O (n)$ 的。

复杂度 $O (n \log n)$ 。

代码

posted @ 2024-08-15 22:28 oXUo 阅读(9) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· 分块与根号算法入门

· 长链剖分小记

· 常见字符串算法

· 【字符串】字符串相关

· 字符串相关（更新至SA）

阅读排行：
· 无需6万激活码！GitHub神秘组织3小时极速复刻Manus，手把手教你使用OpenManus搭建本
· C#/.NET/.NET Core优秀项目和框架2025年2月简报
· Manus爆火，是硬核还是营销？
· 一文读懂知识蒸馏
· 终于写完轮子一部分：tcp代理了，记录一下

公告

昵称： oXUo
园龄： 1年2个月
粉丝： 12
关注： 3

+加关注

2025年3月

日

一

二

三

四

五

六

随笔分类

1. 分块与根号算法入门(2)

oXUo

1

基础字符串总结

1. 哈希(Hash)

2. kmp算法

3. 后缀数组(SA)

3.1 定义

3.2 后缀排序

3.3 height 数组

3.4 应用

3.4.1 求两个后缀的 LCP

3.4.2 本质不同子串个数

3.4.3 结合单调栈

3.5 例题

公告

搜索

常用链接

随笔分类

随笔档案

文章分类

阅读排行榜

评论排行榜

推荐排行榜

最新评论