[luoguP3809]后缀排序

题意

给定一个字符串,要求将它的所有后缀按照字典序排序,并按顺序输出每个后缀第一个字符的下标。

sol

这是后缀数组(Suffix Array, SA)的板子题。
我们定义:
sij 表示 s 中下标在 ij 之间的子串。
sai 表示排名为 i 的后缀第一个字符的下标;
rki 表示第一个字符下标为 i 的后缀的排名。
而本题就是计算 sa 数组。
最朴素的做法即为将所有后缀进行一次排序,时间复杂度 O(n2logn),这显然是远远不足的,我们需要对其优化。
下面介绍一种倍增的方法,可以 O(nlogn) 地计算出 sa 数组。
首先根据所有长度为 1 的子串对 s 进行排序,即根据每个字符进行排序。当我们对所有长度为 w 的子串排序之后,我们将每个后缀的长度为 2w 的前缀分为长度为 w 的两部分,根据之前得到的信息对这个后缀进行排序,直到所有数都排列完毕。
使用基数排序可以将复杂度优化到 O(nlogn)

代码

#include <iostream>
#include <algorithm>
#include <cstring>

using namespace std;

const int N = 1000005;

char s[N];
int n;
int sa[N], rk[N], oldrk[N], cnt[N], scd[N];

void get_sa(){
    for (int i = 1; i <= n; i ++ ) cnt[rk[i] = s[i]] ++ ;
    for (int i = 1; i <= 128; i ++ ) cnt[i] += cnt[i - 1];
    for (int i = n; i; i -- ) sa[cnt[rk[i]] -- ] = i;
    for (int w = 1, m = 128, p = 0; ; m = p, p = 0, w <<= 1){
        for (int i = n - w + 1; i <= n; i ++ ) scd[ ++ p] = i;
        for (int i = 1; i <= n; i ++ ) 
            if (sa[i] > w) scd[ ++ p] = sa[i] - w;
        memset(cnt, 0, m + 1 << 2);
        memcpy(oldrk, rk, n + 1 << 2);
        for (int i = 1; i <= n; i ++ ) cnt[rk[i]] ++ ;
        for (int i = 1; i <= m; i ++ ) cnt[i] += cnt[i - 1];
        for (int i = n; i; i -- ) sa[cnt[rk[scd[i]]] -- ] = scd[i];

        p = 0;
        for (int i = 1; i <= n; i ++ ) rk[sa[i]] = (oldrk[sa[i - 1]] == oldrk[sa[i]] && oldrk[sa[i - 1] + w] == oldrk[sa[i] + w]) ? p : ++ p;
        if (p >= n) return ;
    }
}

int main(){
    scanf("%s", s + 1);
    n = strlen(s + 1);

    get_sa();

    for (int i = 1; i <= n; i ++ ) printf("%d ", sa[i]);

    return 0;
}
posted @   是一只小蒟蒻呀  阅读(9)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 单线程的Redis速度为什么快?
· SQL Server 2025 AI相关能力初探
· AI编程工具终极对决:字节Trae VS Cursor,谁才是开发者新宠?
· 展开说说关于C#中ORM框架的用法!
点击右上角即可分享
微信分享提示