bzoj 2251: [2010Beijing Wc]外星联络
LINK:外星联络
给出一个字符串 求 输出所有出现超过一次的子串的次数。输出子串次数按照子串字典序输出。
考虑求出某个子串出现的次数 SAM或者SA都可以。考虑字典序输出 显然按照SAM的字典序便利一遍就行了。
但是,考虑用SA来做可以发现 求出现次数我们是用height来求的。
我们要输出也肯定是在SA数组上输出。
考虑对于一个串 我们要输出什么 上次和这次匹配长度为w 那么我们要输出 w+1~s(当前子串的长度。
这个时候height数组上二分即可。当然还有更暴力的做法 我们发现 输出的数量级是\(n^2\) 我们直接维护指针向右扫即可 不需要二分。
可以发现二分的复杂度为\(n^2log\)而暴力的复杂度为均摊\(n^2\).
(话说这个SA还是有点难度的 得搞一个单调栈 先正着扫再输出会好一点。。
const int MAXN=3010<<1;
int n,m=2,top;
int s[MAXN],w[MAXN];
int sa[MAXN],rk[MAXN],h[MAXN],x[MAXN],y[MAXN],c[MAXN];
char a[MAXN];
inline void SA()
{
rep(1,n,i)++c[x[i]=(a[i]-'0')];
rep(1,m,i)c[i]+=c[i-1];
for(int i=n;i>=1;--i)sa[c[x[i]]--]=i;
for(int k=1;k<=n;k=k<<1)
{
int num=0;
rep(n-k+1,n,i)y[++num]=i;
rep(1,n,i)if(sa[i]>k)y[++num]=sa[i]-k;
rep(0,m,i)c[i]=0;
rep(1,n,i)++c[x[i]];
rep(1,m,i)c[i]+=c[i-1];
for(int i=n;i>=1;--i)sa[c[x[y[i]]]--]=y[i];
rep(1,n,i)y[i]=x[i],x[i]=0;
x[sa[1]]=num=1;
rep(2,n,i)x[sa[i]]=y[sa[i]]==y[sa[i-1]]&&y[sa[i]+k]==y[sa[i-1]+k]?num:++num;
if(num==n)break;
m=num;
}
}
inline void get_H()
{
rep(1,n,i)rk[sa[i]]=i;
int k=0;
rep(1,n,i)
{
if(rk[i]==1)continue;
if(k)--k;//h[i]>=h[i-1]-1
int j=sa[rk[i]-1];
while(a[i+k]==a[j+k])++k;
h[rk[i]]=k;
}
}
int main()
{
freopen("1.in","r",stdin);
gt(n);gc(a);
SA();get_H();
//rep(1,n,i)put(h[i]);
rep(1,n,i)
{
s[top=1]=h[i+1];w[top=1]=i+1;
rep(i+2,n,j)
{
if(h[j]<s[top])s[++top]=h[j],w[top]=j;
else w[top]=j;
}
int last=h[i];
for(int j=top;j>=1;--j)
{
if(s[j]>last)
{
rep(last+1,s[j],k)put(w[j]-i+1);
last=s[j];
}
}
}
return 0;
}
考虑一下SAM 为什么是正确的?我有点忘了SAM的一些性质了 首先 SAM可以识别所有的子串。
所以我们按照字典序便利到达的每个节点都是子串 但是 一个点可能被到达多次
这是因为 由于我们点数的数量级为O(n) 所以必然一个点承载着多个子串 但是这并不影响我们的字典序输出。
为什么一个点到达多次 因为他们的right集合相同 所以可知尽管一点被遍历多次 可以发现是不同的子串。
值得一提的是 这道题 有trie树的做法 直接暴力遍历trie即可(简单粗暴的n^2.