DNA Sequence

DNA Sequence

参考:AC自动机+矩阵快速幂 POJ 2778

先用AC 自动机保存其状态,用end数组标记那些不能到达的点,并且要注意的一点是如果一个病毒串为abcdef,另一个病毒串为aaabcdef,不止是需要标记这两个串,还需要标记aaabcdefaabcdef,这个可以在进行自动机构造的时候,顺带标记了。

然后用一个二维矩阵表示每一个点的可达矩阵,可达矩阵的 n 次幂,就是长度为 n 的时候可以到达的状态,\(\sum_{i=0}^nans[0][i]\)就是最后的答案。求解的时候可以用矩阵快速幂进行优化。

// Created by CAD
#include <iostream>
#include <vector>
#include <string.h>
#include <queue>
#include <cstdio>
using namespace std;

const int maxn=105;

typedef vector<vector<int> > mat;
const int mod=100000;

mat operator *(mat &a,mat &b){
    mat ans(a.size(),vector<int>(b[0].size()));
    for(int i=0;i<a.size();++i)
        for(int j=0;j<b[0].size();++j)
            for(int k=0;k<b.size();++k)
                ans[i][j]=(1ll*ans[i][j]+1ll*a[i][k]*b[k][j])%mod;
    return ans;
}
mat qpow(mat x,int n){
    mat ans(x.size(),vector<int>(x.size()));
    for(int i=0;i<x.size();++i)
        ans[i][i]=1;
    while(n){
        if(n&1) ans=ans*x;
        n>>=1,x=x*x;
    }
    return ans;
}

namespace ac{
    const int chsiz=4;
    int next[maxn][chsiz],fail[maxn],end[maxn];
    int root,sz;
    //新建节点
    int ch(char c){
        if(c=='A') return 0;
        if(c=='T') return 1;
        if(c=='C') return 2;
        if(c=='G') return 3;
    }
    int newnode(){
        for(int i=0;i<chsiz;++i)
            next[sz][i]=-1;
        end[sz++]=0;
        return sz-1;
    }
    //初始化
    void init(){
        sz=0;
        root=newnode();
    }
    //插入字符串
    void insert(char buf[]){
        int len=strlen(buf);
        int now=root;
        for(int i=0;i<len;i++){
            if(next[now][ch(buf[i])]==-1)
                next[now][ch(buf[i])]=newnode();
            now=next[now][ch(buf[i])];
        }
        end[now]=1;
    }
    //构建AC自动机
    void build(){
        queue<int> Q;
        fail[root]=root;
        for(int i=0;i<chsiz;++i)
            if(next[root][i]==-1)
                next[root][i]=root;
            else{
                fail[next[root][i]]=root;
                Q.push(next[root][i]);
            }
        //求 fail 数组
        while(!Q.empty()){
            int now=Q.front();  Q.pop();
            if(end[fail[now]]) end[now]=1;
            for(int i=0;i<chsiz;++i)
                if(next[now][i]==-1)
                    next[now][i]=next[fail[now]][i];
                else{
                    fail[next[now][i]]=next[fail[now]][i];
                    Q.push(next[now][i]);
                }
        }
    }

    mat getmat(){
        mat ans(sz,vector<int>(sz,0));
        for(int i=0;i<sz;++i){
            for(int j=0;j<4;++j)
                if(!end[next[i][j]])
                    ans[i][next[i][j]]++;
        }
        return ans;
    }

}
char buf[15];
int main() {
    int m,n;
    scanf("%d%d",&m,&n);
    ac::init();
    for(int i=1;i<=m;++i){
        scanf("%s",buf);
        ac::insert(buf);
    }
    ac::build();
    mat x=ac::getmat();
    x=qpow(x,n);
    int ans=0;
    for(int i=0;i<ac::sz;++i)
        ans+=x[0][i],ans%=mod;
    printf("%d\n",ans);
    return 0;
}
/*
7 88348958
AGAAGG
GCACTGGCG
TACTGATG
CCCCA
TCTA
C
ACGATATCG
*/
posted @ 2020-11-21 16:14  caoanda  阅读(167)  评论(0编辑  收藏  举报