KMP算法
KMP算法是一种字符串匹配算法,可以在 O(n+m) 的时间复杂度内实现两个字符串的匹配
KMP算法通过记录相等前后缀的最大长度使得匹配串上的指针不回溯,并且快速跳过不匹配区域
其中最主要的是模式串中个个位置的公共(相等,公共这两个字搞得我迷糊了半天)前后缀的最大值,它将是跳跃匹配的”地图“,存储在next[]
数组里,所以next[]数组的计算不需要匹配串的参与
求next[]
我们习惯将next数组以1
开头,并且公共前缀的长度要求小于子串的长度(就是真子串)
next[i]
表示模式串P[1,i]
中相等前后缀的最长长度
模式串:aabaabaaaa中
代码
ne[1] = 0;
for (int i = 2, j = 0; i <= n; i++) {
while (j && P[i] != p[j + 1]) j = ne[j];
if (P[i] == P[j + 1]) j++;
ne[i] = j;
}
模式串与主串匹配
代码
for (int i = 0, j = 0; i <= m; i++) {
while (j && S[i] != P[j + 1]) j = ne[j];
if (S[i] == P[j + 1]) j++;
if (j == n) cout << i - n + 1 << '\n';
}
使用双指针,i
扫描主串,j
扫描模式串
初始化i = 1, j = 0
每轮for
,i
先右走一步
- 若
S[i] != P[j + 1]
,让j
回跳到能匹配的位置,如果找不到能匹配的位置,j
回跳到0 - 若
S[i]==P[j + 1]
,让j向右走一步 - 若匹配成功,输出匹配位置
模板:
#include<iostream>
#include<algorithm>
using namespace std;
const int N = 1e4 + 10, M = 1e5 + 10;
int n, m;
char p[N], s[M];
int ne[N];
int main()
{
cin >> n >> p + 1 >> m >> s + 1;
// 求next过程
for (int i = 2, j = 0; i <= n; i++) {
while (j && p[i] != p[j + 1]) j = ne[j];
if (p[i] == p[j + 1]) j++;
ne[i] = j;
}
// kmp匹配过程
for (int i = 1, j = 0; i <= m; i++) {
// j表示当前已经匹配成功的字符个数。在匹配过程中,如果j为0,说明当前没有匹配的字符,此时不需要进行回溯操作,直接继续向后匹配即可
while (j && s[i] != p[j + 1]) j = ne[j];
if (s[i] == p[j + 1]) j++;
if (j == n) {
// 匹配成功
}
}
return 0;
}