后缀数组模版+注释
前言
几个星期后,我再打果然..各种细节QwQ【所以把代码丢这里容易找一点...
后缀数组模版+注释
#include<cstdio> #include<cstring> #include<cstdlib> #include<iostream> using namespace std; int sa[11000],y[11000],rank[11000]; //sa[i]表示排第i的是suffix(sa[i]) //rank[i]表示suffix(i)在所有后缀中排第几 int a[11000],wr[11000],n,Rsort[11000],height[11000]; int mymax(int x,int y) {return (x>y)?x:y;} bool cmp(int k1,int k2,int ln){return wr[k1]==wr[k2] && wr[k1+ln]==wr[k2+ln];} void get_height(int len) { int k=0;//k存的是h[],因为只要用到前一项的所以只用变量存 //h[]的性质:h[i]>=h[i-1]-1;证明如下(suffix[i]表示i为开头的后缀): //设suffix[k]是比suffix[i-1]排名前一位的,那么他们的最长公共前缀是height[i-1] //把开头那一位去掉,所以suffix[k+1]与suffix[i]的最长公共前缀至少为height[i-1]-1; for (int i=1;i<=len;i++) { int j=sa[rank[i]-1]; if (k>0) k--; while (s[i+k]==s[j+k]) k++; height[rank[i]]=k; } }//heigth[i]表示排名相邻的两个后缀的最长公共前缀 //h[i]=height[rank[i]] void get_sa(int m) //构建SA后缀数组 { int i,k,p,ln; memcpy(rank,a,sizeof(rank)); //a数组:原字符串,rank名次数组 for (i=0;i<=m;i++) Rsort[i]=0; for (i=1;i<=n;i++) Rsort[rank[i]]++; for (i=1;i<=m;i++) Rsort[i]+=Rsort[i-1]; for (i=n;i>=1;i--) sa[Rsort[rank[i]]--]=i; //以上四句为基数排序,不懂的看flash ln=1; p=0; //ln为当前子串的长度,p表示有多少不相同的子串 while (p<n) { for (k=0,i=n-ln+1;i<=n;i++) y[++k]=i; for (i=1;i<=n;i++) if (sa[i]-ln>0) y[++k]=sa[i]-ln; //先好好意会?这里y[..]存的是??? for (i=1;i<=n;i++) wr[i]=rank[y[i]]; //数组y保存的是对第二关键字排序的结果。注意是 -结果- ! //即只看第二关键字 排第i个的是suffix(y[i]) //数组wr保存的是对第二关键字排序后的rank值 //以下为对第一关键字排序 for (i=0;i<=m;i++) Rsort[i]=0; for (i=1;i<=n;i++) Rsort[wr[i]]++; for (i=1;i<=m;i++) Rsort[i]+=Rsort[i-1]; for (i=n;i>=1;i--) sa[Rsort[wr[i]]--]=y[i]; memcpy(wr,rank,sizeof(wr)); p=1; rank[sa[1]]=1; for (i=2;i<=n;i++) { if (!cmp(sa[i],sa[i-1],ln)) p++; rank[sa[i]]=p; }//得到新的rank数组 m=p; ln*=2; }a[0]=0; sa[0]=0; } int main() { int i,m=-1;char c; n=0;scanf("%c",&c); while (c!='\n') { a[++n]=c; m=mymax(m,a[n]); scanf("%c",&c); } m+=10;get_sa(m); get_height(n); for (i=1;i<=n;i++) printf("%d ",sa[i]); system("pause"); return 0; }