后缀数组学习笔记

1. 前置知识：基数排序

1.1. 思想

现有如下序列：3,44,38,5,47,15,36,32,50，现在要用基数排序算法排序，要怎么做？

基数排序的初始状态如下：

按照个位将原序列中的数分组，放入对应的集合

将分好的数按照个位的顺序取出，得到：

将序列中的数重新按照十位分组，放入对应集合：

将每一位上的数按从下到上的顺序依次取出，就是答案

基数排序利用的是一个桶思想，属于非比较算法

在数更多或位数更多的情况下，重复此过程即可

1.2. 代码：

#include<cstdio>
#include<algorithm>
using namespace std;
int n,a[105],cnt[15],b[105];
int main()
{
	scanf("%d",&n);
	int mx=0;
	for(int i=1;i<=n;i++)
	{
		scanf("%d",&a[i]);
		mx=max(mx,a[i]);
	}
	int d=0;
	while(mx>0)
	{
		mx/=10;
		d++;
	}
	int tmp=1;
	for(int i=1;i<=d;i++)
	{
		for(int j=0;j<10;j++) cnt[j]=0;
		for(int j=1;j<=n;j++)
		{
			int k=(a[j]/tmp)%10;
			cnt[k]++;
		}
		for(int j=1;j<10;j++)
		{
			cnt[j]+=cnt[j-1];
		}
		for(int j=n;j>0;j--)
		{
			int k=(a[j]/tmp)%10;
			b[cnt[k]]=a[j];
			cnt[k]--;
		}
		for(int j=1;j<=n;j++)
		{
			a[j]=b[j];
		}
		tmp*=10;
	}
	for(int i=1;i<=n;i++)
	{
		printf("%d ",a[i]);
	}
	return 0;
}

2.基本概念

后缀：是指从某一个位置i开始直到整个串末尾的某个子串

后缀数组：用 $s a_{i}$ 表示，指所欲哦后缀在排完序后，排名为i的串在原串中的位置，通俗的讲，就是 $s a [排名] = 位置$

名次数组：用 $r a n k_{i}$ 表示，是指所有后缀在排完序后，原字符串中第i个后缀现在的排名，即 $r a n k [位置] = 排名$

以 $a a b a a a a b$ 为例，它的后缀，后缀数组，名次数组如下：

字符串的大小比较：

字符串比较是逐位按字典序比较，若字典序相同，则比较下一位，否则直接分出大小，例如：

$b > a a a a a a a$

$a a b < a a b c$

3. 倍增求后缀数组

3.1. 思想

这里倍增比较字符串的长度

第一次是比较长度为1的字符串

第二次比较的是长度为2的字符串，可以用一个窗口 $[l, l + 1]$ 来表示这个字符串，显然，这个字符串是由2个相邻且长度为1的字符串拼接而成的，长度为2的字符串的排名是由两个长度为1的字符串的排名x和y组成xy

第三次比较的是长度为4的字符串，可以用一个窗口 $[l, l + 3]$ 来表示这个字符串，显然，这个字符串是由2个相邻且长度为2的字符串拼接而成的，长度为4的字符串的排名是由两个长度为2的字符串的排名x和y组成xy

依次类推

第 $k$ 次比较的是长度为 $2^{k - 1}$ 的字符串，可以用一个窗口 $[l, l + 2^{k - 1} - 1]$ 来表示这个字符串，显然，这个字符串是由2个相邻且长度为 $2^{k - 2}$ 的字符串拼接而成的，长度为2的字符串的排名是由两个长度为 $2^{k - 2}$ 的字符串的排名x和y组成xy

如何通过排名来比较字符串大小？

举个例子，两个长度为4的后缀str1和str2：

str1由两个长度为2的字符串拼成，他们的排名为x1和y1，str2由两个长度为2的字符串拼成，他们的排名为x2和y2

此时比较str1和str2的大小，可以以x为第一关键字，若 $x 1 = x 2$ ，则比较y，即y为第二关键字

注意：

在比较的过程中，如果后续的字符不够，则用0来补足
当 $2^{k - 1} \geq n$ 时，就会得出答案

具体比较过程如图：

这里的两个关键字，就相当于数字中的十位和个位，所以排序不分可以所以基数排序，倍增的时间复杂度为 $O (\log n)$ ，所以总时间复杂度为 $O (n \log^{2} n)$

3.2. 例题

P3809 【模板】后缀排序

题目背景

这是一道模板题。

题目描述

读入一个长度为 $n$ 的由大小写英文字母或数字组成的字符串，请把这个字符串的所有非空后缀按字典序（用 ASCII 数值比较）从小到大排序，然后按顺序输出后缀的第一个字符在原串中的位置。位置编号为 $1$ 到 $n$ 。

输入格式

一行一个长度为 $n$ 的仅包含大小写英文字母或数字的字符串。

输出格式

一行，共 $n$ 个整数，表示答案。

样例 #1

样例输入 #1

ababa

样例输出 #1

5 3 1 4 2

提示

$1 \leq n \leq 10^{6}$ 。

3.3. 代码

#include<cstdio>
#include<algorithm>
#include<string>
#include<iostream>
#include<cstring>
using namespace std;
const int N=2e6+5;
string s;
int n,x[N],y[N],cnt[N],sa[N],m;
int main()
{
	cin>>s;
	n=s.size();
	s=" "+s;
	m=122;
	for(int i=1;i<=n;i++) cnt[x[i]=s[i]]++;
	for(int i=1;i<=m;i++) cnt[i]+=cnt[i-1];
	for(int i=n;i>0;i--) sa[cnt[x[i]]--]=i;
	for(int k=1;k<=n;k<<=1)
	{
		memset(cnt,0,sizeof(cnt));
		for(int i=1;i<=n;i++) y[i]=sa[i];
		for(int i=1;i<=n;i++) cnt[x[y[i]+k]]++;
		for(int i=1;i<=m;i++) cnt[i]+=cnt[i-1];
		for(int i=n;i>0;i--) sa[cnt[x[y[i]+k]]--]=y[i];
		memset(cnt,0,sizeof(cnt));
		for(int i=1;i<=n;i++) y[i]=sa[i];
		for(int i=1;i<=n;i++) cnt[x[y[i]]]++;
		for(int i=1;i<=m;i++) cnt[i]+=cnt[i-1];
		for(int i=n;i>0;i--) sa[cnt[x[y[i]]]--]=y[i];
		for(int i=1;i<=n;i++) y[i]=x[i];
		m=0;
		for(int i=1;i<=n;i++)
		{
			if(y[sa[i]]==y[sa[i-1]]&&y[sa[i]+k]==y[sa[i-1]+k])
			{
				x[sa[i]]=m;
			}
			else x[sa[i]]=++m;
		}
		if(m==n) break;
	}
	for(int i=1;i<=n;i++)
	{
		printf("%d ",sa[i]);
	}
	return 0;
}

3.4. 后缀数组的应用

3.4.1. height数组

height数组：定义 $h e i g h t_{i} = s u f f i x (s a_{i - 1})$ 和 $s u f f i x (s a_{i})$ 的最长公共前缀，也就是排名相邻的两个后缀的最长公共前缀，记作 $h e i g h t_{i} = l c p (s a_{i}, s a_{i - 1})$

如果按照 $h e i g h t_{1}$ 至 $h e i g h t_{n}$ 的顺序计算，时间复杂度 $O (n^{2})$ ，没有用到字符串的性质

有一个性质：

h e i g h t [r a n k [i]] \geq h e i g h t [r a n k [i - 1]] - 1

证明：

当 $h e i g h t [r a n k [i - 1]] \leq 1$ 时，上式显然成立（右边小于等于 0）

当 $h e i g h t [r a n k [i - 1]] > 1$ 时：

根据 $h e i g h t$ 定义，有 $l c p (s a [r a n k [i - 1]], s a [r a n k [i - 1] - 1]) = h e i g h t [r k [i - 1]] > 1$

既然后缀 $i - 1$ 和后缀 $s a [r a n k [i - 1] - 1]$ 有长度为 $h e i g h t [r a n k [i - 1]]$ 的最长公共前缀,那么不妨用 $a A$ 来表示这个最长公共前缀,其中a是一个字符，A是长度为 $h e i g h t [r a n k [i - 1]] - 1$ 的字符串

那么后缀 $i - 1$ 可以表示为 $a A D$ ，后缀 $s a [r a n k [i - 1] - 1]$ 可以表示为$aAB。B<D，B可能为空串，D非空

进一步地，后缀 $i$ 可以表示为 $A D$ ，存在后缀 $(s a [r k [i - 1] - 1] + 1 ） A B$

因为后缀 $s a [r k [i] - 1]$ 在大小关系的排名上仅比后缀 $s a [r k [i]]$ 也就是后缀i，小一位，而AB < AD。所以 $A B ⩽$ 后缀 $s a [r k [i] - 1] < A D$ ，显然后缀i和后缀 $s a [r k [i] - 1]$ 有公共前缀 A。

于是就可以得出 $l c p (i, s a [r k [i] - 1])$ 至少是 $h e i g h t [r k [i - 1]] - 1$ ，也即 $h e i g h t [r k [i]] \geq h e i g h t [r k [i - 1]] - 1$ 。

所以，在求解时，就可以用着个性质，从前往后暴力匹配即可

代码：

void get_height()
{
    for(int i=1;i<=n;i++) rk[sa[i]]=i;
    for(int i=1,k=0;i<=n;i++)
	{
		if(rk[i]==1) continue;
		if(k) k--;
		int j=sa[rk[i]-1];
		while(i+k<=n&&j+k<=n&&s[i+k]==s[j+k]) k++;
		height[rk[i]]=k;
	}
}