残缺的字符串
残缺的字符串
莫名其妙最后三个点总是T……但是代码是没问题的。
我们设两个串分别为模式串\(s\)和文本串\(t\),长度分别为\(S\)和\(T\),下标从\(0\)开始。
先考虑没有通配符的情形。
则如果在\(t\)串中以位置\(x\)结尾的\(S\)个字符可以与串\(s\)匹配的话,必有\(\sum_{i=0}^{S-1}t_{x+i-S-1}-s_i=0\)。
这是必要条件,但不是充分条件。当两个串字符完全相同,但字符的顺序不同时,仍有\(\sum_{i=0}^{S-1}t_{x+i-S-1}-s_i=0\)。
我们当然可以套上绝对值符号,但是套上之后也不会轻松多少。但是,我们可以平方,这样一定保证只有当所有的\(t_{x+i-S-1}-s_i=0\)都成立时,上式才会成立。
我们现在判别式为\(\sum_{i=0}^{S-1}(t_{x+i-S-1}-s_i)^2=0\)。暴力拆开得\(\sum_{i=0}^{S-1}(t_{x+i-S-1})^2+\sum_{i=0}^{S-1}(s_i)^2-2\sum_{i=0}^{S-1}t_{x+i-S-1}*s_i=0\)
注意到这个式子左边的两项是可以\(O(n)\)预处理出来的。我们设\(sum=\sum_{i=0}^{S-1}(s_i)^2,f(x)=\sum_{i=0}^x(t_i)^2\)。
则新判别式为\(f(x)-f(x-S)+sum-2\sum_{i=0}^{S-1}t_{x+i-S-1}*s_i=0\)。
对于右边的一项,我们实在没有什么好办法。
FFT第一项操作:遇事不决就翻转
我们如果翻转\(s\)串的话,则原来的\(s_i\)就是新的\(s_{S-i-1}\)。
则翻转后,新的判别式为\(f(x)-f(x-S)+sum-2\sum_{i=0}^{S-1}t_{x+i-S-1}*s_{S-i-1}=0\)。
注意到,右边那个东西的下标之和为\(x\)。
因此我们可以转换为\(f(x)-f(x-S)+sum-2\sum\limits_{i+j=x}t_i*s_j=0\)
右边的东西是典型的卷积形式,直接FFT一波带走。
没有通配符的情形,相当于模板的字符串匹配,效果等同于KMP,复杂度为\(O(n\log n)\)。
代码:
#include<bits/stdc++.h>
using namespace std;
const int N=4e6;
const double pi=acos(-1);
int S,T,lim=1,lg,rev[N],st[N],ss,p[N],cnt;
char s[N],t[N];
struct cp{
double x,y;
cp(double u=0,double v=0){x=u,y=v;}
friend cp operator +(const cp &u,const cp &v){return cp(u.x+v.x,u.y+v.y);}
friend cp operator -(const cp &u,const cp &v){return cp(u.x-v.x,u.y-v.y);}
friend cp operator *(const cp &u,const cp &v){return cp(u.x*v.x-u.y*v.y,u.x*v.y+u.y*v.x);}
}f[N],g[N];
void FFT(cp *a,int tp){
for(int i=0;i<lim;i++)if(i<rev[i])swap(a[i],a[rev[i]]);
for(int md=1;md<lim;md<<=1){
cp rt(cos(pi/md),tp*sin(pi/md));
for(int stp=(md<<1),pos=0;pos<lim;pos+=stp){
cp w(1,0);
for(int i=0;i<md;i++,w=w*rt){
cp x=a[pos+i],y=w*a[pos+md+i];
a[pos+i]=x+y;
a[pos+md+i]=x-y;
}
}
}
}
int main(){
scanf("%s%s",t,s),S=strlen(s),T=strlen(t),reverse(s,s+S);
while(lim<=S+T)lim<<=1,lg++;
for(int i=0;i<lim;i++)rev[i]=(rev[i>>1]>>1)|((i&1)<<(lg-1));
for(int i=0;i<S;i++)ss+=(int)s[i]*s[i];
for(int i=0;i<T;i++){
st[i]=(int)t[i]*t[i];
if(i)st[i]+=st[i-1];
}
for(int i=0;i<S;i++)f[i]=cp(s[i],0);
for(int i=0;i<T;i++)g[i]=cp(t[i],0);
FFT(f,1),FFT(g,1);
for(int i=0;i<lim;i++)f[i]=f[i]*g[i];
FFT(f,-1);
for(int i=S-1;i<T;i++){
p[i]=(int)(f[i].x/lim+0.5);
p[i]=ss+st[i]-2*p[i];
if(i>=S)p[i]-=st[i-S];
cnt+=!p[i];
// printf("%d\n",p[i]);
}
printf("%d\n",cnt);
return 0;
}
考虑有了通配符后,我们新的判别式。如果我们把通配符的值设成\(0\)的话,那么新判别式就是\(\sum_{i=0}^{S-1}(t_{x+i-S-1}-s_i)^2\times t_{x+i-S-1}\times s_i=0\)。
暴力拆开,得\(\sum_{i=0}^{S-1}(t_{x+i-S-1})^3s_i+t_{x+i-S-1}(s_i)^3-2(t_{x+i-S-1})^2(s_i)^2=0\)。
暴力翻转,得\(\sum\limits_{i+j=x}s_i(t_j)^3+\sum\limits_{i+j=x}(s_i)^3t_j-2\sum\limits_{i+j=x}(s_i)^2(t_j)^2=0\)
这样,只要跑\(6\)次FFT,求出每个式子的值即可。
被卡常的代码:
#pragma GCC optimize(3)
#include<bits/stdc++.h>
using namespace std;
const double pi=acos(-1);
const int N=1100000;
int S,T,rev[N],lim=1,lg,ss[N],tt[N];
char s[N],t[N];
struct cp{
double x,y;
cp(double u=0,double v=0){x=u,y=v;}
friend cp operator +(const cp &u,const cp &v){return cp(u.x+v.x,u.y+v.y);}
friend cp operator -(const cp &u,const cp &v){return cp(u.x-v.x,u.y-v.y);}
friend cp operator *(const cp &u,const cp &v){return cp(u.x*v.x-u.y*v.y,u.x*v.y+u.y*v.x);}
}f[N],g[N],h[N];
void FFT(cp *a,int tp){
for(int i=0;i<lim;i++)if(i<rev[i])swap(a[i],a[rev[i]]);
for(int md=1;md<lim;md<<=1){
cp rt(cos(pi/md),tp*sin(pi/md));
for(int stp=md<<1,pos=0;pos<lim;pos+=stp){
cp w(1,0);
for(int i=0;i<md;i++,w=w*rt){
cp x=a[pos+i],y=w*a[pos+md+i];
a[pos+i]=x+y;
a[pos+md+i]=x-y;
}
}
}
}
queue<int>q;
signed main(){
scanf("%d%d%s%s",&S,&T,s,t),reverse(s,s+S);
while(lim<=(S+T))lim<<=1,lg++;
for(int i=0;i<lim;i++)rev[i]=(rev[i>>1]>>1)|((i&1)<<(lg-1));
for(int i=0;i<S;i++)if(s[i]!='*')ss[i]=s[i]-'a'+1;
for(int i=0;i<T;i++)if(t[i]!='*')tt[i]=t[i]-'a'+1;
for(int i=0;i<lim;i++)f[i]=cp(ss[i]*ss[i]*ss[i],0),g[i]=cp(tt[i],0);
// for(int i=0;i<S;i++)printf("%lf ",f[i].x);puts("");
// for(int i=0;i<T;i++)printf("%lf ",g[i].x);puts("");
FFT(f,1),FFT(g,1);
for(int i=0;i<lim;i++)h[i]=h[i]+f[i]*g[i];
for(int i=0;i<lim;i++)f[i]=cp(ss[i],0),g[i]=cp(tt[i]*tt[i]*tt[i],0);
// for(int i=0;i<S;i++)printf("%lf ",f[i].x);puts("");
// for(int i=0;i<T;i++)printf("%lf ",g[i].x);puts("");
FFT(f,1),FFT(g,1);
for(int i=0;i<lim;i++)h[i]=h[i]+f[i]*g[i];
for(int i=0;i<lim;i++)f[i]=cp(ss[i]*ss[i],0),g[i]=cp(tt[i]*tt[i],0);
FFT(f,1),FFT(g,1);
for(int i=0;i<lim;i++)h[i]=h[i]-f[i]*g[i]*cp(2,0);
FFT(h,-1);
for(int i=0;i<lim;i++)h[i].x/=lim;
for(int i=S-1;i<T;i++)if(fabs(h[i].x)<0.5)q.push(i-S+2);
printf("%d\n",q.size());
while(!q.empty())printf("%d ",q.front()),q.pop();
return 0;
}