FFT&NTT

快速傅里叶变换(Fast-Fourier-Transform)

已知多项式$A(x)=\sum _{i=0}^{N} a_ix^i,B(x)=\sum _{i=0}^{M} b_ix^i$求$A(x)*B(x)$.

显然看出可以枚举两个多项式的系数，依次算出，时间$O(nm)$.

太慢了！！怎么办？利用一个奇妙的东西：FFT

多项式的点值表示法

对于一个多项式$A(x)=\sum _{i=0}^{N} a_ix^i$,可以取$N$个不同的$x$值，求得$N$个多项式值。将其作为点，即$(x_i,A(x_i))$

FFT的大致思路就是

将多项式化为点值形式。
将点值相乘。即算出每一个$C(x)=A(x)*B(x)$
将新的点值转化回多项式形式。

前置芝士：向量与复数

向量

向量，即有方向的量，在平面直角坐标系上可以用$(a,b)$表示。

图形上即为由原点指向点$(a,b)$的有向线段。

向量的模长为$\sqrt{a^2+b^2}$

向量的幅角为向量逆时针旋转至与x轴正半轴重合时旋转的角度。

向量的加减法满足平行四边形法则，即$\overrightarrow{m}(x_1,y_1)\pm \overrightarrow{n}(x_2,y_2) = \overrightarrow{p}(x_1 \pm x_2,y_1 \pm y_2)$

复数

定义虚数单位$i$ 满足$i^2=-1$,复数域$C$,形如$a+bi,(a,b\in \mathbb{R})$的数叫做复数。

复数$a+bi$可以在坐标系中表示为$(a,b)$的向量。

同时复数的加减法满足向量的加减法，模长与幅角的定义也与向量相同。

若复数$z$的模长为$|z|$，幅角为$\theta$，根据坐标系则有

$z=|z|cos \theta +i|z|sin \theta$

复数的乘法：

$(x_1+y_1 i)*(x_2+y_2 i)=x_1 x_2+x_2 y_1 i+x_1 y_2 i - y_1 y_2 $

$=(x_1 x_2 - y_1 y_2)+(x_1 y_2+x_2 y_1)i$

并且两个复数相乘遵循一个规律：模长相乘，幅角相加。

复数的单位根

在坐标系中做一个单位圆，将单位圆等分成$n$份的$n$个向量所对应的复数称为$n$次单位根。

幅角最小的记为$\omega _n$，而幅角是$\omega _n$的$k$倍的单位根为$\omega _n^k$.

8次单位根↑

由于我们只需要$2^n$次单位根，所以以下单位根均为$2$的幂次单位根。

单位根的性质：

1.$\omega _n^{kn} =1 (k\in \mathbb{Z}) , \omega _n^k * \omega _n^j = \omega _n^{k+j}$

根据复数乘法，很明显。

2.$\omega _n^k =cos 2\pi \frac{k}{n} +isin 2\pi \frac{k}{n}$

复数的三角表示法。

3.$\omega _{tn}^{tk} =\omega _n^k$

因为$cos 2\pi \frac{tk}{tn}+isin 2\pi \frac{tk}{tn}=cos 2\pi \frac{k}{n}+isin 2\pi \frac{k}{n}$.

4.$\omega _{n}^{\frac {n}{2}}=-1$

$\omega _{n}^{\frac {n}{2}}=cos 2\pi \frac{1}{2}+isin 2\pi \frac{1}{2}$

$=cos \pi +isin \pi$

$=-1$

快速傅里叶变换O(nlogn)

设一个多项式$A(x)$的系数为$(a_0,a_1,a_2...a_{n-1})$.

首先在$A(x)$后面补系数为$0$的项，直到$n$为$2$的幂数，方便接下来运算。

我们可以将所有的$\omega _n^k k \in [0,n-1]$代入求得$n$个点值，并可以做出优化。

$A(x)=a_0+a_1x+a_2x^2+...+a_{n-1}x^{n-1}$

$=(a_0+a_2x^2+...+a_{n-2}x^{n-2})+x(a_1+a_3x^2+...+a_{n-1}x^{n-2})$

令$A_1(x)=a_0+a_2x^2+...+a_{n-2}x^{n-2},A_2(x)=a_1+a_3x^2+...+a_{n-1}x^{n-1}$.

$A(x)=A_1(x^2)+xA_2(x^2)$

将$x=\omega _n^k (0 \leq k<\frac{n}{2})$代入上式

$A(\omega _n^k)=A_1(\omega _n^{2k})+\omega _n^kA_2(\omega _n^{2k})$

$=A_1(\omega _{\frac{n}{2}}^{k})+\omega _n^kA_2(\omega _{\frac{n}{2}}^{k})$

同理将$x=\omega _n^{k+\frac{n}{2}} (0 \leq k<\frac{n}{2})$代入。

$A(\omega _n^{k+\frac{n}{2}})=A_1(\omega _n^{2k+n})-\omega _n^kA_2(\omega _n^{2k+n})$

$=A_1(\omega _n^{2k})-\omega _n^kA_2(\omega _n^{2k})$

$=A_1(\omega _{\frac{n}{2}}^{k})-\omega _n^kA_2(\omega _{\frac{n}{2}}^{k})$

之后我们发现只要求出$A_1(\omega _{\frac{n}{2}}^{k})和A_2(\omega _{\frac{n}{2}}^{k})$就可以算出两个点值。而他们可以递归去求，并且刚好由$n$次变为了$\frac{n}{2}$次，时间复杂度类似线段树$O(nlogn)$.

然后求出两个多项式的所有点值之后将他们分别相乘，得出新多项式的$N+M+1$个点值，这一步是$O(n)$的。

快速傅里叶逆变换O(nlogn)

接下来我们只需要把点值形式转化为多项式形式即可。

设多项式$A(x)(a_0,a_1,a_2...a_{n-1})$的点值表示为$(y_0,y_1,y_2...y_{n-1})$

多项式$D(x)=\sum _{i=0}^{n-1} y_ix^i$,$D(x)$在$(\omega _n^0,\omega _n^{-1},\omega _n^{-2}...\omega _n^{-(n-1)})$的点值表示为$(c_0,c_1,c_2...c_{n-1})$

则有

$c_k=\sum _{i=0}^{n-1} y_i(\omega _n^{-k})^{i}$

$=\sum _{i=0}^{n-1} \sum _{j=0}^{n-1} a_j\omega _n^{ij} \omega _n^{-ik}$

$=\sum _{i=0}^{n-1} \sum _{j=0}^{n-1} a_j(\omega _n^{j-k})^i$

$=\sum _{j=0}^{n-1} \sum _{i=0}^{n-1} a_j(\omega _n^{j-k})^i$

$=\sum _{j=0}^{n-1} a_j\sum _{i=0}^{n-1} (\omega _n^{j-k})^i$

令$T(x)=\sum _{i=0}^{n-1} x^i$,则有

$T(\omega _n^{t})=1+\omega _n^t+(\omega _n^t)^2+...+(\omega _n^t)^{n-1}$ A式

$A*\omega _n^{t}$得：

$\omega _n^{t}T(\omega _n^{t})=\omega _n^t+(\omega _n^t)^2+...+(\omega _n^t)^{n}$ B式

$B-A$得

$(\omega _n^{t}-1)T(\omega _n^{t})=(\omega _n^t)^{n}-1$

$(\omega _n^{t}-1)T(\omega _n^{t})=(\omega _n^n)^{t}-1=1-1=0$

所以当$\omega _n^{t}-1!=0$时$T(\omega _n^{t})=0$

当$\omega _n^{t}-1=0$时可以得到$\omega _n^{t}=1,t=0$.

则$T(\omega _n^{t})=T(1)=\sum _{i=0}^{n-1} 1=n$.

有了这个结论后我们来看这个式子：

$c_k=\sum _{j=0}^{n-1} a_j\sum _{i=0}^{n-1} (\omega _n^{j-k})^i$

$=\sum _{j=0}^{n-1} a_jT(\omega _n^{j-k})$

当且仅当$j=k$时有值，即

$c_k=a_jn$

$a_j=\frac{c_k}{n}$

所以我们只需要求出多项式$D(x)$在$(\omega _n^0,\omega _n^{-1},\omega _n^{-2}...\omega _n^{-(n-1)})$的点值表示即可算出$a_i$.

递归版：

const db pi=acos(-1);
class cplx{
public:
    db x,y;
    cplx(){x=y=0;}
    cplx(const db a,const db b){x=a,y=b;}
    friend cplx operator +(const cplx a,const cplx b){return cplx(a.x+b.x,a.y+b.y);}
    friend cplx operator -(const cplx a,const cplx b){return cplx(a.x-b.x,a.y-b.y);}
    friend cplx operator *(const cplx a,const cplx b){return cplx(a.x*b.x-a.y*b.y,a.y*b.x+a.x*b.y);}
}a[maxn],b[maxn];
int N,M,lim=1;
void fft(int lm,cplx *a,int op){
    if(lm==1) return;
    cplx a1[lm>>1],a2[lm>>1];
    for(int i=0;i<=lm;i+=2)
        a1[i>>1]=a[i],a2[i>>1]=a[i+1];
    fft(lm>>1,a1,op);
    fft(lm>>1,a2,op);
    cplx w1=cplx(cos(2*pi/lm),op*sin(2*pi/lm)),wk=cplx(1,0);
    for(int i=0;i<(lm>>1);i++,wk=wk*w1){
        cplx b=wk*a2[i];
        a[i]=a1[i]+b;
        a[i+(lm>>1)]=a1[i]-b;
    }
}
int MAIN(){
    cin>>N>>M;
    for(int i=0;i<=N;i++) scanf("%lf",&a[i].x);
    for(int i=0;i<=M;i++) scanf("%lf",&b[i].x);
    while(lim<=N+M) lim<<=1;
    fft(lim,a,1);
    fft(lim,b,1);
    for(int i=0;i<=lim;i++) a[i]=a[i]*b[i];
    fft(lim,a,-1);
    for(int i=0;i<=N+M;i++) prt(a[i].x/lim);
    return 0;
}

但是我们发现，这种写法需要很多次复制数组，既耗内存也耗空间。

迭代优化：

我们写出$n=8$时的递归详细：

我们发现一个神奇的性质：递归到最底层时实际的值为原下标的二进制翻转！！（具体证明见文末）

于是我们没有必要再进行递归，只需要将数组调换至最底层的状态然后一层一层往回的迭代即可！

const db pi=acos(-1);
class cplx{
public:
    db x,y;
    cplx(){x=y=0;}
    cplx(const db a,const db b){x=a,y=b;}
    friend cplx operator +(const cplx a,const cplx b){return cplx(a.x+b.x,a.y+b.y);}
    friend cplx operator -(const cplx a,const cplx b){return cplx(a.x-b.x,a.y-b.y);}
    friend cplx operator *(const cplx a,const cplx b){return cplx(a.x*b.x-a.y*b.y,a.y*b.x+a.x*b.y);}
}a[maxn],b[maxn];
int N,M,lim=1,tr[maxn],l=0;
void fft(cplx *a,int op){
    for(int i=0;i<lim;i++) if(i<tr[i])swap(a[i],a[tr[i]]);
    for(int m=1;m<lim;m<<=1){
        cplx w1(cos(pi/m),op*sin(pi/m));
        int len=m<<1;
        for(int i=0;i<lim;i+=len){
            cplx wk(1,0);
            for(int k=0;k<m;k++,wk=wk*w1){
                cplx a1=a[i+k],a2=wk*a[i+m+k];
                a[i+k]=a1+a2;
                a[i+m+k]=a1-a2;
            }
        }
    }
}
int MAIN(){
    cin>>N>>M;
    for(int i=0;i<=N;i++) scanf("%lf",&a[i].x);
    for(int i=0;i<=M;i++) scanf("%lf",&b[i].x);
    while(lim<=N+M) lim<<=1,++l;
    for(int i=1;i<lim;i++){
        tr[i]=(tr[i>>1]>>1)|((i&1)?(1<<(l-1)):0);
    }
    fft(a,1);
    fft(b,1);
    for(int i=0;i<=lim;i++) a[i]=a[i]*b[i];
    fft(a,-1);
    for(int i=0;i<=N+M;i++) prt(a[i].x/lim);
    return 0;
}

总时间复杂度为O(nlogn).

快速数论变换(Number-Theoretic-Transform)

我们发现，FFT中因为要用到三角函数以及浮点数的运算，精度得不到保障，并且复数的常数较大，我们可以进行优化：

引入概念：

原根

设m是正整数，a是整数，若a模m的阶等于φ(m)，则称a为模m的一个原根。（其中φ(m)表示m的欧拉函数）

先不用管原根的定义，扔出一个结论(设$g$为$P$的原根)：

$\omega _n \equiv g^{\frac{P-1}{n}} (mod P)$

原根满足这样的性质：

$g^i != g^j (mod P,i!=j)$

并且根据费马小定理：

$\omega _n^n \equiv g^{P-1} =1 (mod P)$

所以我们知道原根的性质与单位根类似，可以用$g^{\frac {P-1}{n}}$来代替$\omega _n$.

如何求质数$P$的原根？

首先需要知道满足$a^n \equiv 1 (mod P)$的最小$n$值一定满足$n|P-1$.

质因数分解$P-1=\prod p_i^{a_i}$

那么如果有$m|P-1,n|P-1,m|n,a^m \equiv 1(mod P)$，则有$a^n \equiv 1(mod P)$

所以要验证一个数$t$是不是原根，要枚举每一个$p_i$,均满足$t^{\frac{P-1}{p_i}}!=1(mod P)$成立，则$t$是原根。

$P$一般取$998244353$,他的原根是$3$.

const int maxn=(1<<21)+5,mod=998244353,g=3;
int qp(int x,int y){
    long long ans=1;
    while(y){
        if(y&1) ans=ans*x%mod;
        x=((long long)x*x)%mod;
        y>>=1;
    }
    return (int)ans;
}
const int ginv=qp(g,mod-2);
int a[maxn],b[maxn];
int N,M,lim=1,tr[maxn],l=0;
void ntt(int *a,int op){
    for(int i=0;i<lim;i++) if(i<tr[i])swap(a[i],a[tr[i]]);
    for(int m=1;m<lim;m<<=1){
        int len=m<<1;
        int g1=qp(op==1?g:ginv,(mod-1)/len);
        for(int i=0;i<lim;i+=len){
            int gk=1;
            for(int k=0;k<m;k++,gk=(long long)gk*g1%mod){
                int a1=a[i+k],a2=(long long)gk*a[i+m+k]%mod;
                a[i+k]=(a1+a2)%mod;
                a[i+m+k]=(a1-a2+mod)%mod;
            }
        }
    }
}
int MAIN(){
    cin>>N>>M;
    for(int i=0;i<=N;i++) scanf("%d",&a[i]);
    for(int i=0;i<=M;i++) scanf("%d",&b[i]);
    while(lim<=N+M) lim<<=1,++l;
    for(int i=1;i<lim;i++){
        tr[i]=(tr[i>>1]>>1)|((i&1)?(1<<(l-1)):0);
    }
    ntt(a,1);
    ntt(b,1);
    for(int i=0;i<=lim;i++) a[i]=((long long)a[i]*b[i])%mod;
    ntt(a,-1);
    int ny=qp(lim,mod-2);
    for(int i=0;i<=N+M;i++) printf("%lld ",(long long)a[i]*ny%mod);
    return 0;
}

保证了无精度误差，并且跑的飞快，大概是FFT速度2倍。

这里会出现一个问题，因为998244352可以整除$2^{23}$所以在快速幂时可以直接除，但是当模数-1不能整除2的高次幂时，就需要使用任意模数NTT(MTT).

关于二进制翻转的证明：

显然，在前$i$层对应着原下标的前$i$位，向左即为$0$,向右即为$1$.

而前$i$层对应实际系数下标的后$i$位，向左即为$0$,向右即为$1$，因为选出奇数代表选择$1$，偶数代表$0$

所以对于任意一层，原下标的前$i$位均相等，实际系数下标的后$i$位均相等，且两者有着翻转关系。

在最底层即为原下标是实际下标的翻转。

posted @ 2022-05-26 12:23 xxqz 阅读(139) 评论(0) 编辑收藏举报

刷新页面返回顶部

lnxxqz

FFT&NTT

关于二进制翻转的证明：

公告