题意:读入一个长度为 $ n $ 的由大小写英文字母或数字组成的字符串,请把这个字符串的所有非空后缀按字典序(用 ASCII 数值比较)从小到大排序,然后按顺序输出后缀的第一个字符在原串中的位置。位置编号为 $ 1 $ 到 $ n $。其中\(1\le n \le 10^6\)
#include<bits/stdc++.h>
using namespace std;
#define ll long long
inline int read(){
int x=0,o=1;char ch=getchar();
while(ch!='-'&&(ch<'0'||ch>'9'))ch=getchar();
if(ch=='-')o=-1,ch=getchar();
while(ch>='0'&&ch<='9')x=x*10+ch-'0',ch=getchar();
return x*o;
}
const int N=1e6+5;
const int M=2e5+5;
const int mod=1e9+7;
char s[N];
int n,m,rak[N],tp[N],tax[N],sa[N];
void Qsort(){
for(int i=0;i<=m;++i)tax[i]=0;
for(int i=1;i<=n;++i)++tax[rak[i]];
for(int i=1;i<=m;++i)tax[i]+=tax[i-1];
for(int i=n;i>=1;--i)sa[tax[rak[tp[i]]]--]=tp[i];
}
void SA(){
m=127;
for(int i=1;i<=n;++i)rak[i]=s[i]-'0'+1,tp[i]=i;
Qsort();
int p=0;
for(int w=1;p<n;w<<=1){
p=0;
for(int i=1;i<=w;++i)tp[++p]=n-w+i;
for(int i=1;i<=n;++i)if(sa[i]>w)tp[++p]=sa[i]-w;
Qsort();
swap(tp,rak);
rak[sa[1]]=p=1;
for(int i=2;i<=n;++i)
rak[sa[i]]=(tp[sa[i-1]]==tp[sa[i]]&&tp[sa[i-1]+w]==tp[sa[i]+w])?p:++p;
m=p;
}
}
int main() {
scanf("%s",s+1);
n=strlen(s+1);
SA();
for(int i=1;i<=n;++i)cout<<sa[i]<<" ";cout<<endl;
return 0;
}
然后后缀数组中还有一个很重要的数组就是\(Height[i]\),表示排名为i的后缀与排名为i-1的后缀的最长公共前缀。
void GetHeight() {
int j,k=0;
for(int i=1;i<=n;++i){
if(k)--k;
int j=sa[rak[i]-1];
while(s[i+k]==s[j+k])++k;
Height[rak[i]]=k;
}
}
得到了\(Height[i]\)之后,我们就能得到更多的应用。
应用一
题意:给定一个长度为n的字符串,求不同的子串的个数
分析:对于排名为i的后缀,其产生的贡献为\(n-sa[i]+1-Height[i]\),即拿当前后缀的长度 减去 与排名上一个后缀的最长公共前缀。
应用二
题意:求至少出现k次的最长子串长度(子串可重叠)
分析:二分长度,对于当前长度\(mid\),如果有连续\(k-1\)个\(Height[i]>=mid\),则当前\(check\)合法。
应用三
题意:长度为n的字符串首尾相接,根据其实字母位置不同可以得到n个不同的长度为n的字符串,对这n个不同的字符串从小到大排序,求排序后每个字符串最后一个字符拼接形成的字符串。
分析:一般地,有环先去环,去环方法就是将字符串扩大一倍。然后只要这n个字符中有一个字符不同,那么得到的n个长度为n的字符串就是不同的。因此对于\(2n\)的字符串进行后缀排序,\(rak[i](1<=i<=n)\)就是 这n个不同的字符串从小到大的相对排序(就是顺序绝对大小可能不是连续的,但是相对大小是正确的)。
for(int i=1;i<=n/2;++i){
a[i].rk=rak[i];
a[i].pos=i;
}
sort(a+1,a+n/2+1,cmp);
for(int i=1;i<=n/2;++i)cout<<s[a[i].pos+n/2-1];
cout<<endl;