SUBLEX - Lexicographical Substring Search

来一发 \(SA\) 做法。

题目见 SUBLEX - Lexicographical Substring Search

P2408 不同子串个数 当中找到的灵感,统计不同子串个数时候,实际上是用总串数减去重复的串数。

那么针对这道题,查找排名第 \(k\) 小的串,想想我们的后缀数组,不正是满足字典序从小到大排列?现在我们已经拥有了后缀数组,考虑:子串的大小与后缀数组统计的信息有什么关联?

不难发现,其实排名为 \(i\) 的后缀中,以 \(sa_i\) 为起点(也就是这个后缀的起点)向后延伸,串的大小是递增的,也就是说,每个后缀的前缀大小单调递增。并且可以保证,这些串一定不比以 \(sa_{i+1}\) 为起点的串大。而且我们事先统计了 \(height\) 数组,也就可以看作重复的子串,这些在查找第 \(k\) 小的串的过程中直接记录贡献即可。那么如何查找?

求第 \(k\) 小的串,我们就把 \(k\) 握在手里,每次找到一个小串,都给 \(k\) 减去 \(1\),并且不要忘了减去重复的部分,这些在前面已经统计过了。考虑到一个个减去太慢了,可以判断一下剩下的 \(k\) 是否比该后缀的长度大,若大,就直接减去这个后缀的长度,继续查找下一个串,否则以 \(sa_i\) 为起点,输出一个长度为 \(k\) 的串,这便是答案。注意,如果找遍了所有子串都没有找到第 \(k\) 大的串,就输出空字符。

那么我们就有了成熟的思路,见代码:

#include<iostream>
#include<cstring>
#include<cstdio>
#include<string>
#include<cmath>
using namespace std;
const int M = 1000050;

int n, m, l, t, p;
char s[M];
int y[M],x[M],c[M],sa[M],rk[M],height[M];

void get_sa(){
    for(int i=1;i<=n;++i) ++c[x[i]=s[i]];
    for(int i=2;i<=m;++i) c[i]+=c[i-1];
    for(int i=n;i>=1;--i) sa[c[x[i]]--]=i;
    for(int k=1;k<=n;k<<=1){
        int num=0;
        for(int i=n-k+1;i<=n;++i) y[++num]=i;
        for(int i=1;i<=n;++i) if(sa[i]>k) y[++num]=sa[i]-k;
        for(int i=1;i<=m;++i) c[i]=0;
        for(int i=1;i<=n;++i) ++c[x[i]];
        for(int i=2;i<=m;++i) c[i]+=c[i-1];
        for(int i=n;i>=1;--i) sa[c[x[y[i]]]--]=y[i],y[i]=0;
        swap(x,y);
        x[sa[1]]=1;
        num=1;
        for(int i=2;i<=n;++i){
            if(y[sa[i]]==y[sa[i-1]]&&y[sa[i]+k]==y[sa[i-1]+k])
                x[sa[i]]=num;
            else
                x[sa[i]]=++num;
        }
        if(num==n)break;
        m=num;
    }
}

void get_lcp(){
    int k=0;
    for(int i=1;i<=n;++i)rk[sa[i]]=i;
    for(int i=1;i<=n;++i){
        if(rk[i]==1)continue;
        if(k)--k;
        int j=sa[rk[i]-1];
        while(j+k<=n&&i+k<=n&&s[i+k]==s[j+k])++k;
        height[rk[i]]=k;
    }
}

int main(){
    scanf("%s",s+1);
    n=strlen(s+1);
    m=122;
    get_sa();
    get_lcp();
    scanf("%d",&t);
    for(int q=1;q<=t;q++){
		scanf("%d",&p);
		bool flag=0;
		for(int i=1;i<=n;i++){
            if(n-sa[i]+1-height[i]<p)//该后缀的长度记为这次的贡献
                p-=n-sa[i]+1-height[i];
            else {
                for(int j=0;j<=height[i]+p-1;j++)
                    printf("%c", s[sa[i]+j]);
                    //第p大的串一定诞生在这个后缀里
                    //只需要考虑输出前p个字符
				printf("\n");
				flag=1;
				break;
            }
        }
        if(!flag)printf(" \n");
	}
    return 0;
}
posted @ 2023-05-18 11:55  朝绾曦梦  阅读(22)  评论(0编辑  收藏  举报