【POJ】3693 Maximum repetition substring(后缀数组)

原题链接

题意

字符串的重复次数定义为最大数 R,以便可以将该字符串划分为 R 个相同的连续子字符串。 例如,ababab 的重复次数为 3,而 ababa 的重复次数为 1

给定一个包含小写字母的字符串,求重复次数最多的连续重复子串,并且要求字典序最小。

数据范围

1|S|105

思路

考虑一个重复次数大于 1 的子串。设它在原串中的起始位置为 i重复子串的长度为 len。那么显然就有 k=1len1s[i+k]=s[i+len+k]。换句话说,后缀 i 和后缀 i+len 一定满足 lcp(i,i+len)len。其中 lcp 表示最长公共前缀的长度。而出现次数就是 lcp/len+1。后面的 1 是子串 [i,i+len1]

那么就可以从小到大枚举连续子串长度 len。再枚举子串的位置。直接枚举子串的复杂度是 O(n2)。可以考虑先枚举 1,1+len,1+len2....。再分别从每个位置往前推,不符合题意时就直接退出。至于 lcp,可以用后缀数组+ST表的方式做到 O(nlogn) 预处理,O(1) 查询。

一些细节见代码。

code:

#include<cmath>
#include<cstring>
#include<algorithm>
using namespace std;
const int N=1e5+10;
char s[N];
int T,n,m,f[N][25],x[N],y[N],c[N],sa[N],rk[N],height[N];
void get_sa()
{
	memset(c,0,sizeof(c));
	for(int i=1;i<=n;i++) c[x[i]=s[i]]++;
	for(int i=2;i<=m;i++) c[i]+=c[i-1];
	for(int i=n;i>=1;i--) sa[c[x[i]]--]=i;
	for(int k=1;k<=n;k<<=1)
	{
		int num=0;
		for(int i=n-k+1;i<=n;i++) y[++num]=i;
		for(int i=1;i<=n;i++) if(sa[i]>k) y[++num]=sa[i]-k;
		for(int i=1;i<=m;i++) c[i]=0;
		for(int i=1;i<=n;i++) c[x[i]]++;
		for(int i=2;i<=m;i++) c[i]+=c[i-1];
		for(int i=n;i>=1;i--) sa[c[x[y[i]]]--]=y[i],y[i]=0;
		swap(x,y);x[sa[num=1]]=1;
		for(int i=2;i<=n;i++)  x[sa[i]]=(y[sa[i]]==y[sa[i-1]]&&y[sa[i]+k]==y[sa[i-1]+k])?num:++num;
		if(num==n) break;m=num;
	}
}
void get_height()
{
	memset(height,0,sizeof(height));
	for(int i=1;i<=n;i++) rk[sa[i]]=i;
	for(int i=1,k=0;i<=n;i++)
	{
		if(rk[i]==1) continue;
		if(k) k--;
		int j=sa[rk[i]-1];
		while(i+k<=n&&j+k<=n&&s[i+k]==s[j+k]) k++;
		height[rk[i]]=k;
	}
}
void build_ST()
{
	for(int i=2;i<=n;i++) f[i][0]=height[i];
	for(int j=1;j<=20;j++)
		for(int i=2;i+(1<<j-1)<=n;i++)
	    	f[i][j]=min(f[i][j-1],f[i+(1<<j-1)][j-1]);
}
int lcp(int i,int j)
{
	int k=log2(j-i+1);
	return min(f[i][k],f[j-(1<<k)+1][k]);
}
int main()
{
	while(scanf("%s",s+1))
	{
		if(s[1]=='#') break;
		n=strlen(s+1),m=122;get_sa();get_height();build_ST();
		int ans=0,l=0,tot=0;
		for(int len=1;len<=n/2;len++)
		{
			for(int i=1;i+len<=n;i+=len)
			{
				if(s[i]!=s[i+len]) continue;//如果第一个字符就不同了就没必要继续枚举了
				int x=rk[i],y=rk[i+len];
				if(x>y) swap(x,y);//注意满足 x<y
				int now=lcp(x+1,y);
				if(now/len+1>ans||(now/len+1==ans&&rk[i]<rk[l])) {ans=now/len+1;l=i;tot=ans*len;}//注意题目要求字典序最小,那么比较一下后缀数组的排名即可
				int t=1;
				while(i-t>0&&t<=len&&s[i-t]==s[i-t+len])
				{
					if((now+t)/len+1>ans||((now+t)/len+1==ans&&rk[i-t]<rk[l])) {ans=(now+t)/len+1;l=i-t;tot=ans*len;}
					t++;
				}//注意往前枚举的时候枚举到i-len就可以了,因为再往前就是在枚举i-len时该做的事情了
			}
		}
		printf("Case %d: ",++T);
		for(int i=0;i<tot;i++) printf("%c",s[l+i]);puts("");
	}
	return 0;
}
posted @   曙诚  阅读(54)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 地球OL攻略 —— 某应届生求职总结
· 周边上新:园子的第一款马克杯温暖上架
· Open-Sora 2.0 重磅开源!
· 提示词工程——AI应用必不可少的技术
· .NET周刊【3月第1期 2025-03-02】
点击右上角即可分享
微信分享提示