KMP 字符串匹配学习笔记

前言

最近才发现自己写了后缀数组，但并没有其他的字符串算法，今天先把 \(KMP\) 字符串匹配先讲一下。

算法核心

对于字符串匹配，最朴素的方法就是一个字符一个字符地匹配，找到不同的就直接换一个地方匹配。

我们先来看一组样例：
\(ababababe\)

\(ababe\)

对于这组样例，暴力的方法就是直接匹配，从第一位开始匹配，发现从第五个地方开始不一样了，那么我们就直接往后移：
\(ababababe\)

\(\,\,\, ababe\)

发现从第五位开始不一样了，继续往后面移：

\(ababababe\)

\(\quad ababe\)

\(\dots\dots\)

以此类推，我们在第五位发现成功匹配了。

不过这样匹配速度太慢了，复杂度为 \(O(nm)\)，然后我们自己直接想肯定不会一个一个的慢慢想，我们在匹配第一个匹配失败后会将模式串（也就是小的那一个）第三第四位直接移到第一第二位（因为他们相同）。那么就可以知道 \(KMP\) 的核心其实就在，每次匹配失败后，将模式串移到相同的地方。

然后就可以想到预处理出一个数组 \(p\)，\(p_j\) 表示在匹配到第 \(j\) 个字母而 \(j+1\) 个字母不能匹配是，可以移动到前面和当前相同的地方，也就是要 \(t_1t_2\dots t_{p_j}=t_{j-p_j+1}t_{j-p_j+2}\dots t_j\) 的最大值。

然后使得 \(s_{i-j+1}s_{i-j+2}\dots s_i=t_1t_2\dots t_j\) 继续进行匹配。

然后就很清晰了。

\(p\) 数组

自己匹配自己，然后就可以在匹配失败的时候移动到相同的地方以优化。

代码：

for(int i=1;i<m;++i){
    while(j>0&&t[j+1]!=t[i+1])
		j=p[j];
    if(t[i+1]==t[j+1])
		++j;
	p[i+1]=j;
}

Code

#include<bits/stdc++.h>
#define int long long 
using namespace std;
inline int read(){
	int x=0,f=1;
	char ch;
	ch=getchar();
	while(ch<'0'||ch>'9'){
		if(ch=='-') f=-f;
		ch=getchar();
	}
	while(ch>='0'&&ch<='9'){
		x=x*10+(ch-'0');
		ch=getchar();
	}
	return x*f;
}
char s[10000000],t[10000000];
int n,m,p[11000000];
signed main(){
    scanf("%s%s",s+1,t+1);
    p[1]=0;
    n=strlen(s+1),m=strlen(t+1);
    int j=0;
    for(int i=1;i<m;++i){
        while(j>0&&t[j+1]!=t[i+1])
			j=p[j];
        if(t[i+1]==t[j+1])
			++j;
		p[i+1]=j;
    }
    j=0;
    for(int i=0;i<n;++i){
        while
			j=p[j];
        if(t[j+1]==s[i+1])
			++j;
        if(j==m){
			cout<<i-m+2<<endl;
			j=p[j];
		}
    }
    for(int i=1;i<=m;++i)printf("%d ",p[i]);
    return 0;
}

时间复杂度为：\(O(n+m)\)（不会重复匹配）。

posted @ 2023-08-19 16:44 bhbjzyh 阅读(72) 评论(0) 收藏举报

刷新页面返回顶部

pdpdzaa

KMP 字符串匹配学习笔记

前言

算法核心

\(p\) 数组

代码：

Code

公告

pdpdzaa

KMP 字符串匹配 学习笔记

前言

算法核心

\(p\) 数组

代码：

Code

公告

KMP 字符串匹配学习笔记