字符串匹配入门

String Searching Algorithms

  • Horspool:看pattern每个字符和最后一位字符的距离
  • Boyer-Moyer:看pattern小字符串和最后一个字符的距离
  • KMP:看状态转移

单模匹配--KMP

定义两个字符串text和pattern,pattern不断位移的过程中,需要让其中间断掉的时候剪枝

Eg:ABAABAB

建next数组-->最长相等前后缀[0...k] [i-k...i]

i:0->pattern.length()-1,j=-1

  • case1:p[j+1]=p[i]-->j++;
  • case2:上一个元素内拆前后缀
    while(j!=-1&&p[i]!=p[j+1])j=next[j];
    p[j+1]=p[i]-->j++;

状态转移:next[i]=j;

移位匹配

i:0->text.length()-1,j=-1

  • case1:p[j+1]=t[i]-->j++;
  • case2:上一个元素内拆前后缀
    while(j!=-1&&t[i]!=p[j+1])j=next[j];
    p[j+1]=t[i]-->j++;

判断:j==m-1-->return true

代码模板

scanf("%s%s",s1,s2);int a=strlen(s1);//text
int b=strlen(s2);//pattern
nxt[0]=-1;
for(i=1;i<b;++i){
    while(j!=-1&&s2[j+1]!=s2[i])j=nxt[j];
    if(s2[j+1]==s2[i])++j;
    nxt[i]=j;
}j=-1;
for(i=0;i<a;++i){
    while(j!=-1&&s2[j+1]!=s1[i])j=nxt[j];
    if(s2[j+1]==s1[i])++j;
    if(j==b-1)printf("%d\n",i-b+2);
}

多模匹配--AC自动机

定义text和pattern,pattern1在某位fail时可以从该位fail想办法剪枝

建fail数组

根据fail来源建表顺序可以是BFS,指向为了进行下一个模板,fail为了记录跳转的起点

每取一个u,i:26capital

  • case1:e[u][i]!=0回到0或者上一个fail下面p

fail[e[u][i]]=e[fail[u]][i];

  • case2:e[u][i]=0指向上一个fail下面p

e[u][i]=e[fail[u]][i];

插入trie

i:pattern,j=0

  • case1:e[j][i]=0->e[j][i]=++cnt(总序号);
  • case2:e[j][i]!=0

判断:val[pattern.length()-1]=1;

状态转移:j=e[j][i]

query

是否允许串重复出现-->是否设置val[]=-1

i:text

去重处理t=j,while(t)fail[t]=-1,t=fail[t];

  • case1:val[j]!=-1->sum+=val[j];
  • case2:val[j]=-1

状态转移:j=e[j][i]

代码

struct AC{
    int fail[500010],val[500010],e[500010][26],cnt=0;
    void ins(char* p){
        int len=strlen(p);int j=0;
        for(int i=0;i<len;++i){
            int x=p[i]-'a';
            if(e[j][x]==0)e[j][x]=++cnt;
            j=e[j][x];
        }
        val[j]++;
    }
    void build(){
        for(int i=0;i<26;++i)if(e[0][i])fail[e[0][i]]=0,q.push(e[0][i]);
        while(!q.empty()){
            int u=q.front();q.pop();
            for(int i=0;i<26;++i)
	            if(e[u][i])fail[e[u][i]]=e[fail[u]][i],q.push(e[u][i]);
	            else e[u][i]=e[fail[u]][i];
        }
    }
    int query(char* p){
        int len=strlen(p),j=0,sum=0;
        for(int i=0;i<len;++i){
            int x=p[i]-'a';j=e[j][x];int t=j;
            while(t&&val[t]!=-1)sum+=val[t],val[t]=-1,t=fail[t];
        }
        return sum;
    }
}at;
posted @ 2019-12-28 17:09  飞翔的菜鸟123  阅读(174)  评论(0编辑  收藏  举报