SUBLEX - Lexicographical Substring Search
来一发 \(SA\) 做法。
题目见 SUBLEX - Lexicographical Substring Search
从 P2408 不同子串个数 当中找到的灵感,统计不同子串个数时候,实际上是用总串数减去重复的串数。
那么针对这道题,查找排名第 \(k\) 小的串,想想我们的后缀数组,不正是满足字典序从小到大排列?现在我们已经拥有了后缀数组,考虑:子串的大小与后缀数组统计的信息有什么关联?
不难发现,其实排名为 \(i\) 的后缀中,以 \(sa_i\) 为起点(也就是这个后缀的起点)向后延伸,串的大小是递增的,也就是说,每个后缀的前缀大小单调递增。并且可以保证,这些串一定不比以 \(sa_{i+1}\) 为起点的串大。而且我们事先统计了 \(height\) 数组,也就可以看作重复的子串,这些在查找第 \(k\) 小的串的过程中直接记录贡献即可。那么如何查找?
求第 \(k\) 小的串,我们就把 \(k\) 握在手里,每次找到一个小串,都给 \(k\) 减去 \(1\),并且不要忘了减去重复的部分,这些在前面已经统计过了。考虑到一个个减去太慢了,可以判断一下剩下的 \(k\) 是否比该后缀的长度大,若大,就直接减去这个后缀的长度,继续查找下一个串,否则以 \(sa_i\) 为起点,输出一个长度为 \(k\) 的串,这便是答案。注意,如果找遍了所有子串都没有找到第 \(k\) 大的串,就输出空字符。
那么我们就有了成熟的思路,见代码:
#include<iostream>
#include<cstring>
#include<cstdio>
#include<string>
#include<cmath>
using namespace std;
const int M = 1000050;
int n, m, l, t, p;
char s[M];
int y[M],x[M],c[M],sa[M],rk[M],height[M];
void get_sa(){
for(int i=1;i<=n;++i) ++c[x[i]=s[i]];
for(int i=2;i<=m;++i) c[i]+=c[i-1];
for(int i=n;i>=1;--i) sa[c[x[i]]--]=i;
for(int k=1;k<=n;k<<=1){
int num=0;
for(int i=n-k+1;i<=n;++i) y[++num]=i;
for(int i=1;i<=n;++i) if(sa[i]>k) y[++num]=sa[i]-k;
for(int i=1;i<=m;++i) c[i]=0;
for(int i=1;i<=n;++i) ++c[x[i]];
for(int i=2;i<=m;++i) c[i]+=c[i-1];
for(int i=n;i>=1;--i) sa[c[x[y[i]]]--]=y[i],y[i]=0;
swap(x,y);
x[sa[1]]=1;
num=1;
for(int i=2;i<=n;++i){
if(y[sa[i]]==y[sa[i-1]]&&y[sa[i]+k]==y[sa[i-1]+k])
x[sa[i]]=num;
else
x[sa[i]]=++num;
}
if(num==n)break;
m=num;
}
}
void get_lcp(){
int k=0;
for(int i=1;i<=n;++i)rk[sa[i]]=i;
for(int i=1;i<=n;++i){
if(rk[i]==1)continue;
if(k)--k;
int j=sa[rk[i]-1];
while(j+k<=n&&i+k<=n&&s[i+k]==s[j+k])++k;
height[rk[i]]=k;
}
}
int main(){
scanf("%s",s+1);
n=strlen(s+1);
m=122;
get_sa();
get_lcp();
scanf("%d",&t);
for(int q=1;q<=t;q++){
scanf("%d",&p);
bool flag=0;
for(int i=1;i<=n;i++){
if(n-sa[i]+1-height[i]<p)//该后缀的长度记为这次的贡献
p-=n-sa[i]+1-height[i];
else {
for(int j=0;j<=height[i]+p-1;j++)
printf("%c", s[sa[i]+j]);
//第p大的串一定诞生在这个后缀里
//只需要考虑输出前p个字符
printf("\n");
flag=1;
break;
}
}
if(!flag)printf(" \n");
}
return 0;
}