残缺的字符串

莫名其妙最后三个点总是T……但是代码是没问题的。

我们设两个串分别为模式串\(s\)和文本串\(t\)，长度分别为\(S\)和\(T\)，下标从\(0\)开始。

先考虑没有通配符的情形。

则如果在\(t\)串中以位置\(x\)结尾的\(S\)个字符可以与串\(s\)匹配的话，必有\(\sum_{i=0}^{S-1}t_{x+i-S-1}-s_i=0\)。

这是必要条件，但不是充分条件。当两个串字符完全相同，但字符的顺序不同时，仍有\(\sum_{i=0}^{S-1}t_{x+i-S-1}-s_i=0\)。

我们当然可以套上绝对值符号，但是套上之后也不会轻松多少。但是，我们可以平方，这样一定保证只有当所有的\(t_{x+i-S-1}-s_i=0\)都成立时，上式才会成立。

我们现在判别式为\(\sum_{i=0}^{S-1}(t_{x+i-S-1}-s_i)^2=0\)。暴力拆开得\(\sum_{i=0}^{S-1}(t_{x+i-S-1})^2+\sum_{i=0}^{S-1}(s_i)^2-2\sum_{i=0}^{S-1}t_{x+i-S-1}*s_i=0\)

注意到这个式子左边的两项是可以\(O(n)\)预处理出来的。我们设\(sum=\sum_{i=0}^{S-1}(s_i)^2,f(x)=\sum_{i=0}^x(t_i)^2\)。

则新判别式为\(f(x)-f(x-S)+sum-2\sum_{i=0}^{S-1}t_{x+i-S-1}*s_i=0\)。

对于右边的一项，我们实在没有什么好办法。

FFT第一项操作：遇事不决就翻转

我们如果翻转\(s\)串的话，则原来的\(s_i\)就是新的\(s_{S-i-1}\)。

则翻转后，新的判别式为\(f(x)-f(x-S)+sum-2\sum_{i=0}^{S-1}t_{x+i-S-1}*s_{S-i-1}=0\)。

注意到，右边那个东西的下标之和为\(x\)。

因此我们可以转换为\(f(x)-f(x-S)+sum-2\sum\limits_{i+j=x}t_i*s_j=0\)

右边的东西是典型的卷积形式，直接FFT一波带走。

没有通配符的情形，相当于模板的字符串匹配，效果等同于KMP，复杂度为\(O(n\log n)\)。

代码：

#include<bits/stdc++.h>
using namespace std;
const int N=4e6;
const double pi=acos(-1);
int S,T,lim=1,lg,rev[N],st[N],ss,p[N],cnt;
char s[N],t[N];
struct cp{
	double x,y;
	cp(double u=0,double v=0){x=u,y=v;}
	friend cp operator +(const cp &u,const cp &v){return cp(u.x+v.x,u.y+v.y);}
	friend cp operator -(const cp &u,const cp &v){return cp(u.x-v.x,u.y-v.y);}
	friend cp operator *(const cp &u,const cp &v){return cp(u.x*v.x-u.y*v.y,u.x*v.y+u.y*v.x);}
}f[N],g[N];
void FFT(cp *a,int tp){
	for(int i=0;i<lim;i++)if(i<rev[i])swap(a[i],a[rev[i]]);
	for(int md=1;md<lim;md<<=1){
		cp rt(cos(pi/md),tp*sin(pi/md));
		for(int stp=(md<<1),pos=0;pos<lim;pos+=stp){
			cp w(1,0);
			for(int i=0;i<md;i++,w=w*rt){
				cp x=a[pos+i],y=w*a[pos+md+i];
				a[pos+i]=x+y;
				a[pos+md+i]=x-y;
			}
		}
	}
}
int main(){
	scanf("%s%s",t,s),S=strlen(s),T=strlen(t),reverse(s,s+S);
	while(lim<=S+T)lim<<=1,lg++;
	for(int i=0;i<lim;i++)rev[i]=(rev[i>>1]>>1)|((i&1)<<(lg-1));
	for(int i=0;i<S;i++)ss+=(int)s[i]*s[i];
	for(int i=0;i<T;i++){
		st[i]=(int)t[i]*t[i];
		if(i)st[i]+=st[i-1];
	}
	for(int i=0;i<S;i++)f[i]=cp(s[i],0);
	for(int i=0;i<T;i++)g[i]=cp(t[i],0);
	FFT(f,1),FFT(g,1);
	for(int i=0;i<lim;i++)f[i]=f[i]*g[i];
	FFT(f,-1);
	for(int i=S-1;i<T;i++){
		p[i]=(int)(f[i].x/lim+0.5);
		p[i]=ss+st[i]-2*p[i];
		if(i>=S)p[i]-=st[i-S];
		cnt+=!p[i];
//		printf("%d\n",p[i]);
	}
	printf("%d\n",cnt);
	return 0;
}

考虑有了通配符后，我们新的判别式。如果我们把通配符的值设成\(0\)的话，那么新判别式就是\(\sum_{i=0}^{S-1}(t_{x+i-S-1}-s_i)^2\times t_{x+i-S-1}\times s_i=0\)。

暴力拆开，得\(\sum_{i=0}^{S-1}(t_{x+i-S-1})^3s_i+t_{x+i-S-1}(s_i)^3-2(t_{x+i-S-1})^2(s_i)^2=0\)。

暴力翻转，得\(\sum\limits_{i+j=x}s_i(t_j)^3+\sum\limits_{i+j=x}(s_i)^3t_j-2\sum\limits_{i+j=x}(s_i)^2(t_j)^2=0\)

这样，只要跑\(6\)次FFT，求出每个式子的值即可。

被卡常的代码：

#pragma GCC optimize(3)
#include<bits/stdc++.h>
using namespace std;
const double pi=acos(-1);
const int N=1100000; 
int S,T,rev[N],lim=1,lg,ss[N],tt[N];
char s[N],t[N];
struct cp{
	double x,y;
	cp(double u=0,double v=0){x=u,y=v;}
	friend cp operator +(const cp &u,const cp &v){return cp(u.x+v.x,u.y+v.y);}
	friend cp operator -(const cp &u,const cp &v){return cp(u.x-v.x,u.y-v.y);}
	friend cp operator *(const cp &u,const cp &v){return cp(u.x*v.x-u.y*v.y,u.x*v.y+u.y*v.x);}
}f[N],g[N],h[N];
void FFT(cp *a,int tp){
	for(int i=0;i<lim;i++)if(i<rev[i])swap(a[i],a[rev[i]]);
	for(int md=1;md<lim;md<<=1){
		cp rt(cos(pi/md),tp*sin(pi/md));
		for(int stp=md<<1,pos=0;pos<lim;pos+=stp){
			cp w(1,0);
			for(int i=0;i<md;i++,w=w*rt){
				cp x=a[pos+i],y=w*a[pos+md+i];
				a[pos+i]=x+y;
				a[pos+md+i]=x-y;
			}
		}
	}
}
queue<int>q;
signed main(){
	scanf("%d%d%s%s",&S,&T,s,t),reverse(s,s+S);
	while(lim<=(S+T))lim<<=1,lg++;
	for(int i=0;i<lim;i++)rev[i]=(rev[i>>1]>>1)|((i&1)<<(lg-1));
	for(int i=0;i<S;i++)if(s[i]!='*')ss[i]=s[i]-'a'+1;
	for(int i=0;i<T;i++)if(t[i]!='*')tt[i]=t[i]-'a'+1;
	
	for(int i=0;i<lim;i++)f[i]=cp(ss[i]*ss[i]*ss[i],0),g[i]=cp(tt[i],0);
//	for(int i=0;i<S;i++)printf("%lf ",f[i].x);puts("");
//	for(int i=0;i<T;i++)printf("%lf ",g[i].x);puts("");
	FFT(f,1),FFT(g,1);
	for(int i=0;i<lim;i++)h[i]=h[i]+f[i]*g[i];
	
	for(int i=0;i<lim;i++)f[i]=cp(ss[i],0),g[i]=cp(tt[i]*tt[i]*tt[i],0);
//	for(int i=0;i<S;i++)printf("%lf ",f[i].x);puts("");
//	for(int i=0;i<T;i++)printf("%lf ",g[i].x);puts("");
	FFT(f,1),FFT(g,1);
	for(int i=0;i<lim;i++)h[i]=h[i]+f[i]*g[i];
	
	for(int i=0;i<lim;i++)f[i]=cp(ss[i]*ss[i],0),g[i]=cp(tt[i]*tt[i],0);
	FFT(f,1),FFT(g,1);
	for(int i=0;i<lim;i++)h[i]=h[i]-f[i]*g[i]*cp(2,0);
	
	FFT(h,-1);
	for(int i=0;i<lim;i++)h[i].x/=lim;
	for(int i=S-1;i<T;i++)if(fabs(h[i].x)<0.5)q.push(i-S+2);
	printf("%d\n",q.size());
	while(!q.empty())printf("%d ",q.front()),q.pop();
	return 0;
}

posted @ 2020-04-22 22:11 Troverld 阅读(113) 评论(0) 收藏举报

刷新页面返回顶部

Troverld

博客渲染出问题了那是博客的锅，本人什么都不会做的。

残缺的字符串

残缺的字符串