ZigZagKmp
Think twice, code once.

题目传送门

算法分析

题目要求我们求出出现至少\(k\)次的最长子串。子串问题最常见的(其实是我只会)的做法是后缀数组。

后缀的前缀一定是这个字符串的一个子串,因此我们只需要求出至少\(k\)个不同后缀的\(LCP\)即可。

我们回顾一下对于任意的两个后缀\(i,j\ (i\ne j)\),那么\(LCP(i,j)=\min_{i<k\le j}\{height[k]\}\)

由此我们可以根据\(\min\)运算的性质,不难推出一个定理:当\(i\)为一个定值,\(k\)为自变量,\(\forall k1,k2\in[i,n],k1<k2,LCP(i,k1)\ge LCP(i,k2)\)

因此可以证明,最长子串一定是排序后连续的\(k\)个后缀的\(LCP\)

下面的实现就比较简单了,使用\(ST\)表或者单调队列维护区间最小值即可。

代码实现

#include<bits/stdc++.h>
using namespace std;
#define maxn 1000005
template <typename Tp>
void read(Tp &x){
	x=0;int fh=1;char c=getchar();
	while(c>'9'||c<'0'){if(c=='-'){fh=-1;}c=getchar();}
	while(c>='0'&&c<='9'){x=(x<<1)+(x<<3)+(c&15);c=getchar();}x*=fh;
}
int s[maxn];
int n,k;
int sa[2][maxn],rk[2][maxn],v[maxn],h[maxn];
int st[30][maxn],lg=20,ans;
int get_rmq(int x,int y){
	int kk=log(y-x+1)/log(2);
	return min(st[kk][x],st[kk][y-(1<<kk)+1]);
}
int main(){
	int p=0,q=1;
	read(n);read(k);
	for(int i=1;i<=n;i++)read(s[i]);
	for(int i=1;i<=n;i++)v[s[i]]++;
	for(int i=1;i<=1000000;i++)v[i]+=v[i-1];
	for(int i=1;i<=n;i++)sa[0][v[s[i]]--]=i;
	for(int i=1;i<=n;i++)rk[0][sa[0][i]]=rk[0][sa[0][i-1]]+(s[sa[0][i]]!=s[sa[0][i-1]]);
	for(int k=1;k<=n;k<<=1,swap(p,q)){
		for(int i=1;i<=n;i++)v[rk[p][sa[p][i]]]=i;
		for(int i=n;i;i--)if(sa[p][i]>k)sa[q][v[rk[p][sa[p][i]-k]]--]=sa[p][i]-k;
		for(int i=n-k+1;i<=n;i++)sa[q][v[rk[p][i]]--]=i;
		for(int i=1;i<=n;i++)rk[q][sa[q][i]]=rk[q][sa[q][i-1]]+(rk[p][sa[q][i]]!=rk[p][sa[q][i-1]]||rk[p][sa[q][i]+k]!=rk[p][sa[q][i-1]+k]);
		if(rk[q][sa[q][n]]==n)break;
	}
	for(int i=1,k=0;i<=n;i++){
		if(rk[q][i]==1)continue;
		if(k)k--;
		int j=sa[q][rk[q][i]-1];
		while(s[i+k]==s[j+k])k++;
		h[rk[q][i]]=k;
	}
	for(int i=1;i<=n;i++)st[0][i]=h[i];
	for(int j=1;j<=lg;j++){
		for(int i=1;i+(1<<j)-1<=n;i++){
			st[j][i]=min(st[j-1][i],st[j-1][i+(1<<(j-1))]);
		}
	}
	for(int i=1;i+k-2<=n;i++){
		ans=max(ans,get_rmq(i,i+k-2));
	}
	printf("%d\n",ans);
	return 0;
}
posted on 2019-09-13 11:18  ZigZagKmp  阅读(116)  评论(0编辑  收藏  举报