学习笔记:后缀数组

后缀数组是指对于后缀排序后,每个后缀的位置:sa[rank]=pos:排名为rank的后缀是pos->len这个后缀

note:rank[pos]=rank:位置为pos的串排名为rank

白书上的代码简洁明了,很容易理解。

核心思想:我们对于每个位置开始的后缀,不直接计算,先计算从这个位置开始,向后1位是第几小,然后向后2位,向后4位,一直到*2>n,这时就算好了后缀数组

复杂度:O(n*log(n)^2) :倍增log(n),快排log(n)

2017/1/8 lcp中相邻的两个字符串是这两个字符串的最大lcp,和左和右谁大不确定(好像听不懂)

似乎听了课之后又有了些感悟:为什么pos+1的lcp至少是pos的lcp-1,因为pos+1位置前面至少会有pos前一个后缀截掉第一个字符,肯定比pos+1小,并且两个东西lcp为pos的lcp-1

代码:

bool cp(int x,int y)
{
    //rank(2*k)[x]和rank(2*k)[y]可以由rank(k)[x],rank(k)[x+k]和rank(k)[y],rank(k)[y+k]比较得出
    if(rank[x]!=rank[y]) return rank[x]<rank[y];
    int rx=x+k<=n?rank[x+k]:-1;//当前位置是x,向后k位超出了长度,那么很明显,rank[x+k]是不存在的,也可以看做一个空串,rank=-1
    int ry=y+k<=n?rank[y+k]:-1;
    return rx<ry;
}
void sa(string s)
{
    //******排名:第几小
    n=s.length();
    for(int i=0;i<=n;i++)
    {
        sa[i]=i; rank[i]=i<n?s[i]:-1;
    }
    for(k=1;k<=n;k*=2)
    {
        sort(sa,sa+n+1,cp);//sa排序,sa存的是每个排名的位置,也就是每个排名对应的串
        //sa[0]即为排名为0的串对应的位置
        temp[sa[0]]=0;//第一个rank为0
        for(int i=1;i<=n;i++)
        {
            temp[sa[i]]=temp[sa[i-1]]+(cp(sa[i-1],sa[i]));//计算名次,因为sa已经排好序,这里计算如果两个串相等,那么排名一样,否则排名+1
        }
        for(int i=0;i<=n;i++)
        {
            rank[i]=temp[i];//直接赋值,上面那个因为是按sa排序,所以按sa赋值
        }
    }
}

 基数排序

#include<bits/stdc++.h>
using namespace std;
const int N = 100010;
int n; 
char c[N];
int s[N], sa[N], lcp[N], a[N], b[N], rank[N];
void radix(int *s, int *a, int *b, int n, int m)
{
    int count[N]; memset(count, 0, sizeof(count));
    for(int i = 1; i <= n; ++i) ++count[s[a[i]]];
    for(int i = 1; i <= m; ++i) count[i] += count[i - 1];
    for(int i = n; i; --i) b[count[s[a[i]]]--] = a[i];
}
void Sa()
{
    for(int i = 1; i <= n; ++i) rank[i] = i;
    radix(s, rank, sa, n, 26);
    rank[sa[1]] = 1;
    for(int i = 2; i <= n; ++i) rank[sa[i]] = rank[sa[i - 1]] + (s[sa[i]] != s[sa[i - 1]]);
    for(int k = 1; k <= n; k <<= 1)
    {
        for(int i = 1; i <= n; ++i) 
        {
            a[i] = rank[i];
            b[i] = i + k <= n ? rank[i + k] : 0;
            sa[i] = i;
        }    
        radix(b, sa, rank, n, n + 1);
        radix(a, rank, sa, n, n + 1);
        rank[sa[1]] = 1;
        for(int i = 2; i <= n; ++i) rank[sa[i]] = rank[sa[i - 1]] + (a[sa[i]] != a[sa[i - 1]] || b[sa[i]] != b[sa[i - 1]]);
    }
}
void Lcp()
{
    int h = 0; 
    for(int i = 1; i <= n; ++i) rank[sa[i]] = i;
    for(int i = 1; i <= n; ++i)
    {
        int j = sa[rank[i] - 1];
        if(rank[i] <= 1) continue;
        if(h > 0) --h;
        for(; i + h <= n && j + h <= n; ++h) if(s[i + h] != s[j + h]) break;
        lcp[rank[i] - 1] = h;    
    }
}
int main()
{
    scanf("%s", c + 1); n = strlen(c + 1);
    for(int i = 1; i <= n; ++i) s[i] = c[i] - 'a' + 1;
    Sa(); Lcp();
    for(int i = 1; i <= n; ++i) printf("%d ", sa[i]);
    puts("");
    for(int i = 1; i < n; ++i) printf("%d ", lcp[i]);
    return 0;
}
View Code

 

posted @ 2017-01-04 23:41  19992147  阅读(176)  评论(0编辑  收藏  举报