罗穗骞的dc3和倍增法

主要参考了 .罗穗骞《后缀数组——处理字符串的有力工具》和许智磊的后缀数组,现在能使用罗穗骞的dc3

算法和倍增法

倍增法模板o(nlgn)

view plaincopy to clipboardprint?
int wa[maxn],wb[maxn],wv[maxn],ws[maxn];  
int cmp(int *r,int a,int b,int l)  
{return r[a]==r[b]&&r[a+l]==r[b+l];}  
void da(int *r,int *sa,int n,int m)  
{  
int i,j,p,*x=wa,*y=wb,*t;  
for(i=0;i<m;i++) ws[i]=0;  
for(i=0;i<n;i++) ws[x[i]=r[i]]++;  
for(i=1;i<m;i++) ws[i]+=ws[i-1];  
for(i=n-1;i>=0;i--) sa[--ws[x[i]]]=i;  
for(j=1,p=1;p<n;j*=2,m=p)  
{  
for(p=0,i=n-j;i<n;i++) y[p++]=i;  
for(i=0;i<n;i++) if(sa[i]>=j) y[p++]=sa[i]-j;  
for(i=0;i<n;i++) wv[i]=x[y[i]];  
for(i=0;i<m;i++) ws[i]=0;  
for(i=0;i<n;i++) ws[wv[i]]++;  
for(i=1;i<m;i++) ws[i]+=ws[i-1];  
for(i=n-1;i>=0;i--) sa[--ws[wv[i]]]=y[i];  
for(t=x,x=y,y=t,p=1,x[sa[0]]=0,i=1;i<n;i++)  
x[sa[i]]=cmp(y,sa[i-1],sa[i],j)?p-1:p++;  
}  
return;  

int wa[maxn],wb[maxn],wv[maxn],ws[maxn];
int cmp(int *r,int a,int b,int l)
{return r[a]==r[b]&&r[a+l]==r[b+l];}
void da(int *r,int *sa,int n,int m)
{
int i,j,p,*x=wa,*y=wb,*t;
for(i=0;i<m;i++) ws[i]=0;
for(i=0;i<n;i++) ws[x[i]=r[i]]++;
for(i=1;i<m;i++) ws[i]+=ws[i-1];
for(i=n-1;i>=0;i--) sa[--ws[x[i]]]=i;
for(j=1,p=1;p<n;j*=2,m=p)
{
for(p=0,i=n-j;i<n;i++) y[p++]=i;
for(i=0;i<n;i++) if(sa[i]>=j) y[p++]=sa[i]-j;
for(i=0;i<n;i++) wv[i]=x[y[i]];
for(i=0;i<m;i++) ws[i]=0;
for(i=0;i<n;i++) ws[wv[i]]++;
for(i=1;i<m;i++) ws[i]+=ws[i-1];
for(i=n-1;i>=0;i--) sa[--ws[wv[i]]]=y[i];
for(t=x,x=y,y=t,p=1,x[sa[0]]=0,i=1;i<n;i++)
x[sa[i]]=cmp(y,sa[i-1],sa[i],j)?p-1:p++;
}
return;
}

dc3模板o(n)

view plaincopy to clipboardprint?
#define F(x) ((x)/3+((x)%3==1?0:tb))  
#define G(x) ((x)<tb?(x)*3+1:((x)-tb)*3+2)  
int wa[maxn],wb[maxn],wv[maxn],ws[maxn];  
int c0(int *r,int a,int b)  
{return r[a]==r[b]&&r[a+1]==r[b+1]&&r[a+2]==r[b+2];}  
int c12(int k,int *r,int a,int b)  
{if(k==2) return r[a]<r[b]||r[a]==r[b]&&c12(1,r,a+1,b+1);  
else return r[a]<r[b]||r[a]==r[b]&&wv[a+1]<wv[b+1];}  
void sort(int *r,int *a,int *b,int n,int m)  
{  
int i;  
for(i=0;i<n;i++) wv[i]=r[a[i]];  
for(i=0;i<m;i++) ws[i]=0;  
for(i=0;i<n;i++) ws[wv[i]]++;  
for(i=1;i<m;i++) ws[i]+=ws[i-1];  
for(i=n-1;i>=0;i--) b[--ws[wv[i]]]=a[i];  
return;  
}  
void dc3(int *r,int *sa,int n,int m)  
{  
int i,j,*rn=r+n,*san=sa+n,ta=0,tb=(n+1)/3,tbc=0,p;  
r[n]=r[n+1]=0;  
for(i=0;i<n;i++) if(i%3!=0) wa[tbc++]=i;  
sort(r+2,wa,wb,tbc,m);  
sort(r+1,wb,wa,tbc,m);  
sort(r,wa,wb,tbc,m);  
for(p=1,rn[F(wb[0])]=0,i=1;i<tbc;i++)  
rn[F(wb[i])]=c0(r,wb[i-1],wb[i])?p-1:p++;  
if(p<tbc) dc3(rn,san,tbc,p);  
else for(i=0;i<tbc;i++) san[rn[i]]=i;  
for(i=0;i<tbc;i++) if(san[i]<tb) wb[ta++]=san[i]*3;  
if(n%3==1) wb[ta++]=n-1;  
sort(r,wb,wa,ta,m);  
for(i=0;i<tbc;i++) wv[wb[i]=G(san[i])]=i;  
for(i=0,j=0,p=0;i<ta && j<tbc;p++)  
sa[p]=c12(wb[j]%3,r,wa[i],wb[j])?wa[i++]:wb[j++];  
for(;i<ta;p++) sa[p]=wa[i++];  
for(;j<tbc;p++) sa[p]=wb[j++];  
return;  

#define F(x) ((x)/3+((x)%3==1?0:tb))
#define G(x) ((x)<tb?(x)*3+1:((x)-tb)*3+2)
int wa[maxn],wb[maxn],wv[maxn],ws[maxn];
int c0(int *r,int a,int b)
{return r[a]==r[b]&&r[a+1]==r[b+1]&&r[a+2]==r[b+2];}
int c12(int k,int *r,int a,int b)
{if(k==2) return r[a]<r[b]||r[a]==r[b]&&c12(1,r,a+1,b+1);
else return r[a]<r[b]||r[a]==r[b]&&wv[a+1]<wv[b+1];}
void sort(int *r,int *a,int *b,int n,int m)
{
int i;
for(i=0;i<n;i++) wv[i]=r[a[i]];
for(i=0;i<m;i++) ws[i]=0;
for(i=0;i<n;i++) ws[wv[i]]++;
for(i=1;i<m;i++) ws[i]+=ws[i-1];
for(i=n-1;i>=0;i--) b[--ws[wv[i]]]=a[i];
return;
}
void dc3(int *r,int *sa,int n,int m)
{
int i,j,*rn=r+n,*san=sa+n,ta=0,tb=(n+1)/3,tbc=0,p;
r[n]=r[n+1]=0;
for(i=0;i<n;i++) if(i%3!=0) wa[tbc++]=i;
sort(r+2,wa,wb,tbc,m);
sort(r+1,wb,wa,tbc,m);
sort(r,wa,wb,tbc,m);
for(p=1,rn[F(wb[0])]=0,i=1;i<tbc;i++)
rn[F(wb[i])]=c0(r,wb[i-1],wb[i])?p-1:p++;
if(p<tbc) dc3(rn,san,tbc,p);
else for(i=0;i<tbc;i++) san[rn[i]]=i;
for(i=0;i<tbc;i++) if(san[i]<tb) wb[ta++]=san[i]*3;
if(n%3==1) wb[ta++]=n-1;
sort(r,wb,wa,ta,m);
for(i=0;i<tbc;i++) wv[wb[i]=G(san[i])]=i;
for(i=0,j=0,p=0;i<ta && j<tbc;p++)
sa[p]=c12(wb[j]%3,r,wa[i],wb[j])?wa[i++]:wb[j++];
for(;i<ta;p++) sa[p]=wa[i++];
for(;j<tbc;p++) sa[p]=wb[j++];
return;
}

不过神罗说da的n实际上小于dc3的n,所以速度上差距在0.33之间。考虑coding的速度

可以选倍增法。但是我用起来两个都不顺手:(

后缀数组的核心是两个后缀之间的height值

由一个不知道是哪里来的公式

h[i]≥h[i-1]-1

从而计算出height

view plaincopy to clipboardprint?
int rank[maxn],height[maxn];  
void calheight(int *r,int *sa,int n)  
{  
int i,j,k=0;  
for(i=1;i<=n;i++) rank[sa[i]]=i;  
for(i=0;i<n;height[rank[i++]]=k)  
for(k?k--:0,j=sa[rank[i]-1];r[i+k]==r[j+k];k++);  
return;  

int rank[maxn],height[maxn];
void calheight(int *r,int *sa,int n)
{
int i,j,k=0;
for(i=1;i<=n;i++) rank[sa[i]]=i;
for(i=0;i<n;height[rank[i++]]=k)
for(k?k--:0,j=sa[rank[i]-1];r[i+k]==r[j+k];k++);
return;
}

然后就可以调用计算啦!(calheight调用时n为原始值)

dc3的调用格式是dc3(r,sa,n,m)//r为数据数组,要int化,sa是计算以后返回的值。n是数据个数+1,m是最大不超过的数字。设为128或则大一点maxn也可以。。

da调用方法类似,要进行微调

输入的时候建议view plaincopy to clipboardprint?
scanf("%s",s+len)//len为以前输入的字符串长度 
scanf("%s",s+len)//len为以前输入的字符串长度

搜索的时候用二分法,递归的好理解的方法为view plaincopy to clipboardprint?
int BSearch(int left,int right)  
{  
    if(left>right)  
        return right;  
    int mid=(left+right)/2;  
    if(pend(mid))BSearch(mid+1,right);//pend为自定义函数  
    else BSearch(left,mid-1);  

int BSearch(int left,int right)
{
    if(left>right)
        return right;
    int mid=(left+right)/2;
    if(pend(mid))BSearch(mid+1,right);//pend为自定义函数
    else BSearch(left,mid-1);
}

 单子串

 不可重叠最长重复子串 (pku1743)

要先对height根据二分法进行分组,容易看出最大重复字串一定在

同一组中。那样只要判断每一组的sa最大和最小值是否大于等于k

如果是,则存在。

sa是计算出来后缀的最长公共前缀的字典序排名、

可重叠的k 次最长重复子串(pku3261)

这题和上题基本一样,在二分后计算的时候判断每一组是否大于k

连续重复子串


可以在两个字符串之间加各种不同符号。ascii中0除外,只要不和数组中其他字符重复就可以了

然后可以把他当成单子串来做。

只要求height中的最大值,但是需要是在不同的组中的height,即用不同符号分割的。

pku2774,pku3294

 

最郁闷的就是3294 ,poj中很多东西都会有暗桩.我找waterloo的原始数据也测过了,在uva上的11107也是相同提也ac的,这里就是死活wa。就这样,先放在这里吧。

 

本文来自CSDN博客,转载请标明出处:http://blog.csdn.net/yc0576/archive/2010/03/01/5334861.aspx

posted on 2010-06-01 18:27  keep going  阅读(1525)  评论(0编辑  收藏  举报