Sweety

Practice makes perfect

导航

失恋的小 T(后缀数组)

Posted on 2017-05-03 11:59  蓝空  阅读(144)  评论(0编辑  收藏  举报


失恋的小 T

时间限制: 1 Sec  内存限制: 128 MB
提交: 174  解决: 75
[提交][状态][讨论版]

题目描述

小 T 最近失恋了,开始怀疑人生和爱情,他想知道在这世界中去伪存真后还剩多少。 
小 T 在网上拿到了代表大千世界的长字符串,删掉了所有换行空格和标点符号,只剩下了小写字母。 
现在字符串中有好多重复的子串,相同子串里只有一个是 Real 的。 
为了让小 T 走出失恋,你一定要告诉他这个世界上 Real 的东西有多少。 
(子串:串中任意个连续的字符组成的子序列称为该串的子串) 

输入

包含 100 组输入,每组为一行字符串,只包含小写字母,长度 1-5000。 

输出

输出 100 行,每行一个整数,对应输入的答案。 

样例输入

aaba

样例输出

8

提示

来源

[提交][状态]

题意简化后是:给你一个字符串,问这个字符串有多少个不同的字串,这道题第一眼看暴力可做,哈希可做,字典树可做,所以很容易马上试一发,但是仔细算算复杂度和内存是过不了的。 首先想到的是字典树,把所有的字串插入到字典树中,最后输出一共有多少树的节点即可,但是这样会超内存。然后想到了字典树的左儿子右兄弟表示法,可以节省内存,然而这样每次查找儿子的时候需要遍历一遍儿子链表,导致 TLE。 然后想到了哈希,这样就不会超时了,求出哈希表来之后,只有 n2 的复杂度,然而这样塞进一个 set 里面也会超时。于是想到了先放进 vector 再排序去重,可以减少一定时间,然而这样 vector 就存不下了,MLE。 直到最后才想到了后缀数组,知道了后缀串字典序排序,求出 height 数组来之后,就可以知道每个后缀与前一个后缀的最长公共前缀。这样最后统计求和一下就可以了。需要注意刘汝佳的模板使用的时候字符串后面需要补’ $’ 后缀数组也算是字符串处理中的神器了,经常和 RMQ 结合使用,建议大家学会。

应该算是比较裸的后缀数组的题目,子串就是所有后缀的所有前缀,基于这个思想,考虑后缀数组得height数组,每两个排名相邻得后缀得最长公共前缀,两个后缀得差就是中间得一段字符串咯,他出现过的话,个数就是公共前缀长度,比如aabab,ab和abab两个后缀,公共部分是ab,代表子串ab和a是重复的,最后得ans就是所有子串-height里面得和。(如果是ababab那么ababab和abab和ab说白了就是a ab aba abab前两个后缀得前缀够出得子串中这四个是重复的,ab和abab是a ab是重复的,用不用算ababab和ab呢,不用,因为已经剪掉了后面出现得,不能减两次甚至更多)

#include<iostream>
#include<stdio.h>
#include<math.h>
#include <string>
#include<string.h>
#include<map>
#include<queue>
#include<set>
#include<utility>
#include<vector>
#include<algorithm>
#include<stdlib.h>
using namespace std;
#define maxn 200100
#define maxm 200005
#define rd(x) scanf("%d", &x)
#define rd2(x, y) scanf("%d%d", &x, &y)
#define mod 1000000007
const int MAXN = 20010;
int t1[MAXN],t2[MAXN],c[MAXN];
bool cmp(int *r, int a,int b,int l){
    return r[a] ==r[b] && r[a+l] == r[b+l];
}
void da(int str[], int sa[], int rankk[], int height[], int n, int m){
    n++;
    int i,j,p,*x =t1,*y=t2;
    for(i =0; i <m; i++) c[i] =0;
    for(i = 0; i <n; i++) c[x[i] =str[i]]++;
    for(i =1; i < m; i++) c[i] += c[i-1];
    for(i = n-1;i >= 0; i--) sa[--c[x[i]]] = i;
    for(j =1; j <= n; j <<=1){
        p =0;
        for(i = n-j; i <n; i++) y[p++] = i;
        for(i = 0; i < n; i++) if(sa[i] >= j) y[p++] = sa[i] -j;
 
        for(i = 0; i < m; i++) c[i] =0;
        for(i = 0 ;i < n; i++) c[x[y[i]]]++;
        for(i = 1; i < m; i++) c[i] += c[i-1];
        for(i = n-1; i >=0; i--) sa[--c[x[y[i]]]] = y[i];
        swap(x,y);
        p =1; x[sa[0]] =0;
        for(int i = 1; i < n; i++) x[sa[i]] = cmp(y, sa[i-1], sa[i], j)?p-1:p++;
        if(p >= n) break;
        m =p;
    }
    int k =0;
    n--;
    for(i = 0; i <= n;i++) rankk[sa[i]] = i;
    for(i = 0; i < n;i++){
        if(k) k--;
        j =sa[rankk[i]-1];
        while(str[i+k] == str[j+k]) k++;
        height[rankk[i]] = k;
    }
}
int rankk[MAXN],height[MAXN];
char str[MAXN];
int r[MAXN],sa[MAXN];
int main()
{
    int t = 100;
    while(~scanf("%s", str)){
        //scanf("%s", str);
        int len = strlen(str);
        //int n = 2*len +1;
        for(int i =0; i < len ;i++) r[i] = str[i];
        //for(int i =0; i < len; i++) r[len + 1 + i] = str[len -1 -i];
        r[len] =0;
        r[len+1] = 0;
        da(r, sa, rankk, height,  len , 'z' + 1);
        long long int res = len - sa[1];
        for(int i= 2 ;i <= len; i++){
            res = res + len - sa[i] -height[i];
        }
        printf("%lld\n", res);
    }
    return 0;
}