后缀数组SA学习笔记

洛谷模板题

题意:读入一个长度为 $ n $ 的由大小写英文字母或数字组成的字符串,请把这个字符串的所有非空后缀按字典序(用 ASCII 数值比较)从小到大排序,然后按顺序输出后缀的第一个字符在原串中的位置。位置编号为 $ 1 $ 到 $ n $。其中\(1\le n \le 10^6\)

讲解清楚,码风清晰

原论文:《后缀数组——处理字符串的有力工具》 by罗穗骞

#include<bits/stdc++.h>
using namespace std;
#define ll long long
inline int read(){
    int x=0,o=1;char ch=getchar();
    while(ch!='-'&&(ch<'0'||ch>'9'))ch=getchar();
    if(ch=='-')o=-1,ch=getchar();
    while(ch>='0'&&ch<='9')x=x*10+ch-'0',ch=getchar();
    return x*o;
}
const int N=1e6+5;
const int M=2e5+5;
const int mod=1e9+7;
char s[N];
int n,m,rak[N],tp[N],tax[N],sa[N];
void Qsort(){
	for(int i=0;i<=m;++i)tax[i]=0;
    for(int i=1;i<=n;++i)++tax[rak[i]];
    for(int i=1;i<=m;++i)tax[i]+=tax[i-1];
    for(int i=n;i>=1;--i)sa[tax[rak[tp[i]]]--]=tp[i];	
}
void SA(){
	m=127;
	for(int i=1;i<=n;++i)rak[i]=s[i]-'0'+1,tp[i]=i;
	Qsort();
	int p=0;
	for(int w=1;p<n;w<<=1){
		p=0;
		for(int i=1;i<=w;++i)tp[++p]=n-w+i;
		for(int i=1;i<=n;++i)if(sa[i]>w)tp[++p]=sa[i]-w;
		Qsort();
		swap(tp,rak);
		rak[sa[1]]=p=1;
		for(int i=2;i<=n;++i)
			rak[sa[i]]=(tp[sa[i-1]]==tp[sa[i]]&&tp[sa[i-1]+w]==tp[sa[i]+w])?p:++p;
		m=p;
	}
}
int main() {
    scanf("%s",s+1);
    n=strlen(s+1);
    SA();
    for(int i=1;i<=n;++i)cout<<sa[i]<<" ";cout<<endl;
    return 0; 
}

然后后缀数组中还有一个很重要的数组就是\(Height[i]\),表示排名为i的后缀与排名为i-1的后缀的最长公共前缀。

void GetHeight() {
    int j,k=0;
    for(int i=1;i<=n;++i){
        if(k)--k;
        int j=sa[rak[i]-1];
        while(s[i+k]==s[j+k])++k;
        Height[rak[i]]=k;
    }
}

得到了\(Height[i]\)之后,我们就能得到更多的应用。

应用一

洛谷:不同字串个数

题意:给定一个长度为n的字符串,求不同的子串的个数

分析:对于排名为i的后缀,其产生的贡献为\(n-sa[i]+1-Height[i]\),即拿当前后缀的长度 减去 与排名上一个后缀的最长公共前缀。

应用二

洛谷:[USACO06DEC]Milk Patterns G

题意:求至少出现k次的最长子串长度(子串可重叠)

分析:二分长度,对于当前长度\(mid\),如果有连续\(k-1\)\(Height[i]>=mid\),则当前\(check\)合法。

应用三

[JSOI2007]字符加密

题意:长度为n的字符串首尾相接,根据其实字母位置不同可以得到n个不同的长度为n的字符串,对这n个不同的字符串从小到大排序,求排序后每个字符串最后一个字符拼接形成的字符串。

分析:一般地,有环先去环,去环方法就是将字符串扩大一倍。然后只要这n个字符中有一个字符不同,那么得到的n个长度为n的字符串就是不同的。因此对于\(2n\)的字符串进行后缀排序,\(rak[i](1<=i<=n)\)就是 这n个不同的字符串从小到大的相对排序(就是顺序绝对大小可能不是连续的,但是相对大小是正确的)。

    for(int i=1;i<=n/2;++i){
    	a[i].rk=rak[i];
    	a[i].pos=i;
	}
	sort(a+1,a+n/2+1,cmp);
	for(int i=1;i<=n/2;++i)cout<<s[a[i].pos+n/2-1];
	cout<<endl;

posted on 2023-03-21 18:36  PPXppx  阅读(12)  评论(0编辑  收藏  举报