KMP 算法学习笔记

KMP 字符串匹配算法

一个人最可悲的地方不在于失败，而在于失败后，不去尝试找回曾经的自己而是直接推倒重来。—— KMP

$\mathtt{一些定义}$

$s(i)$ 为字符串 $s$ 从左往右第 $i$ 个字符， $s(l,r)$ 为 $s$ 从左往右第 $l$ 个字符到从左往右第 $r$ 个字符所构成的子串。

例：设 s="abcdefg"，则 $s(2)$ 为 b， $s(3,5)$ 为 cde。
$t$ （长度为 $m$ ）的最长前后缀长度的定义：使得 $t(1,k)$ 与 $t(m - k + 1, m)$ 相等的最大 $k$ 值。
长度为 $j$ 的前缀指 $s(1,j)$ ，假设 $s$ 长度为 $k$ ，则长度为 $j$ 的后缀指 $s(k - j + 1, k)$ 。

本文代码如无特殊说明，默认已经执行过：

 cin >> (a + 1) >> (b + 1);
n = strlen(a);
m = strlen(b);

$\mathtt{引入：抽象的暴力算法形式}$

KMP 所解决的问题非常简单：给定主串 $A$ ，模式串 $B$ ，问 $B$ 在 $A$ 中：

出现了多少次？
出现在什么位置上？

这个问题暴力做非常简单，上代码：

 for(int i = 1;i + m - 1 <= n;i++)
{
    bool ok = 1;
    for(int j = i;j <= i + m - 1;j++)
    {
        if(a[i] != b[j])
        {
            ok = 0;
            break;
        }
    }
    if(ok) /*在位置 i 上匹配到，进行处理*/
}

这个暴力做法很显然，基本上一看代码就知道它的作用，接下来我们对它进行一些改动，以便于为下文的 KMP 算法做铺垫。

改动一：把 $i$ 改成指针的形式，并修改定义。

我们定义 $i$ 不再是子串的第一个字符的位置，而是子串最后一个字符的位置。

 int i = 0;
while(i <= n)
{
    if(i - m + 1 < 1) continue;
    bool ok = 1;
    for(int j = i - m + 1;j <= i;j++)
    {
        if(a[i] != b[j])
        {
            ok = 0;
            break;
        }
    }
    if(ok) /*在位置 i 上匹配到，进行处理*/
    i++;
}

改动二：把 $j$ 也改成指针的形式，并修改定义

$j$ 代表： $a(i - j + 1,i)$ 与 $b(1,j)$ 完全相等。

注意到此时我们就需要让 $i$ 和 $j$ 同步变化，也就是说，当 $a(i + 1)$ 等于 $b(j + 1)$ 时， $i$ 和 $j$ 各加上 $1$ ，这样子才能保持 $i$ 和 $j$ 的定义，建议手推一下以更好的理解。

 int i = 0, j = 0;
while(i < n && j < m)
{
    if(a[i + 1] == b[j + 1])
    {
        i++;
        j++;
    }
    else
    {
        i = i + 2 - j;
        j = 0;
    }
    if(j == m)
    {
        /*在 i + 1 - m 上匹配到*/
        j = 0;
    }
}

算法流程大致如下：

如果 $a(i + 1)$ 和 $b(j + 1)$ 相等，说明可以继续匹配下去，各加上 $1$ 。
如果不相等，说明匹配不下去了， $j$ 直接跳回 $0$ ， $i$ 回到最开始的地方的下一位（也就是 $i - j +1 +1 = i-j+2$ ，因为你现在匹配了 $j$ 位，跳回去就是 $i -j + 1$ ，它的下一位就是 $i - j + 1+ 1$ ）。
如果 $j=m$ ，说明匹配成功，将 $j$ 设为 $0$ ，从当前的 $i$ 开始继续匹配（因为很可能会匹配多次，从 $i$ 开始是因为前面都已经匹配过了）。

这个算法的复杂度为 $O(nm)$ ，有点慢，慢在哪呢？

$\mathtt{优化：KMP\ 算法}$

这个时候 K、M、P 三个人站了出来：慢在让 $i$ 直接跳回去！

他们说，本来前面就已经匹配了那么多，现在一匹配不下去就要舍弃前面所有的匹配成果重新再来，这也太浪费了！

怎么办？他们提出了一个大胆的想法：让 $i$ 不跳。

你可能会说， $i$ 不跳？那这样不就无法保证匹配了吗？

别急，你想想， $i$ 动不了，我们是不是可以通过调整 $j$ ，来使得在 $i$ 不变的前提下，其依旧满足呢？注意， $j$ 调整后要尽量大哦。（如果小的话跟直接调成 $0$ 就没啥区别了）

显然可以，这就是 KMP 算法的核心：通过调整 $j$ ，使得在 $i$ 不变的前提下， $i$ 和 $j$ 依旧满足定义。

显然， $j$ 一定是变小的，因为变大的话，无法保证匹配。（本来下一位就无法保证匹配了，现在你还变大，相当于给后面可能无法匹配的位置强行搞成匹配）

KMP 提出了一个 $\text{next}(i)$ 数组，他发现，这个数组与 $A$ 无关，它的基本定义为：

当第 $i$ 位可以匹配，第 $i + 1$ 位无法继续匹配时，在 $j$ 继续符合定义，即 $a(i - j + 1,i)$ 与 $b(1,j)$ 完全相等的情况下，能调整到的最大的 $j$ 是多少？

KMP 算法和上面所讲的暴力算法非常类似，过程如下：

如果 $a(i + 1)$ 和 $b(j + 1)$ 相等，说明可以继续匹配下去，各加上 $1$ 。
如果不相等，说明匹配不下去了， $j$ 跳回 $\text{next}(j)$ ， $i$ 不变。
如果 $j=m$ ，说明匹配成功，将 $j$ 设为 $\text{next}(j)$ （因为很可能会匹配多次）。

这里无非就是把“跳回 0”这个动作改成了“跳回 $\text{next}(j)$ ”，并让 $i$ 保持不变，这样的好处就在于，匹配失败一个位不会立刻推倒重来，而是会跳到先前的一部继续匹配。

代码实现时需要注意：由于第二步 $i$ 不变，因此可以进行一个小小的改动：

如果 $a(i +1)$ 和 $b(j + 1)$ 不相等，一直让 $j=\text{next}(j)$ ，直到 $j = 0$ 或相等为止。

（下文都称 $\text{next}$ 数组为 $p$ 数组）

由于不相等时总是会回到第二步，相当于一个循环，因此这个改动是正确的，代码如下：

 while(j > 0 && b[j + 1] != a[i + 1]) j = p[j];

综合其它两步，实现如下：

 while(j > 0 && b[j + 1] != a[i + 1]) j = p[j];
if(a[i + 1] == b[j + 1])
{
    i ++;
    j++;
}
if(j == m)
{
    /*i - m + 1 上可以匹配到*/
    j = p[j];
}

是不是和暴力很相似？没错，KMP 和暴力的唯一不同就在于使用了 $\text{next}$ 数组避免了反复推倒重来所带来的无谓的时间消耗。

最后注意到 i++ 可以放到代码的末尾，这样子我们就可以把代码简化成 for 循环了，但需要注意： $j=m$ 时，匹配位置的 $i$ 改之后会少掉一，因此答案就需要加上一个一，具体看代码：

 int j = 0;
for(int i = 0;i < n;i++)
{
    while(j > 0 && b[j + 1] != a[i + 1]) j = p[j];
    if(a[i + 1] == b[j + 1]) j++;
    if(j == m)
    {
        /*i - m + 2 上可以匹配到*/
        j = p[j];
    }
}

问题又来了， $\text{next}$ 数组怎么求呢？

$\mathtt{next\ 数组的新定义}$

看图说话：

如果看到这行字，请私信我。

$\mathtt{next\ 数组的求法}$

下文代码默认已经执行过：

 strcpy(s, b);

我们不妨来举个例子：

A B A C A B A B

$\large{\mathtt{ABACABAB}}$

我们刚刚已经证明， $p_i$ 的定义为：

$p_i$ 代表 $s(1,i)$ 的最长前后缀的长度。

也就是说，我们要去获取 $1\le i \le n$ 中 $s(1,i)$ 这个子串的最长前后缀长度。

怎么求？我们可以一位一位地去求。具体地，不妨假设 $s(1,i-1)$ 的最长前后缀长度为 $j$ ，也就是说当前匹配了 $j$ 位的前后缀，那么如果 $s(i) = s(j + 1)$ ， $s(1,i)$ 的最长前后缀的长度就是 $j+1$ ，如下图：

如果看到这行字，请私信我。

为了防止 $i-1$ 下标越界，在写代码时，我们可以将上面的话换一种表达方式：设 $s(1,i)$ 的最长前后缀长度为 $j$ ，那么如果 $s(i + 1) = s(j + 1)$ ， $s(1,i+1)$ 的最长前后缀的长度就是 $j+1$ 。写成代码大概长这样：

 for(int i = 1;i < m;i++)
{
    if(s[i + 1] == s[j + 1]) j++;
    p[i + 1] = j;
}

那么如果不同呢？你想想，如果 $s(i + 1) \neq s(j+1)$ ，那么是不是意味着我们就要重头再次开始匹配，也就是让 $j = 0, i = 1$ 呢？当然不是！前面匹配了那么多肯定不能白费，既然前后缀长度为 $j$ 无法继续匹配，那么我们就去找 $s(1,j)$ 的最长前后缀。由于 $s(1,j) = s(i - j + 1,i)$ ，那么这个最长前后缀其实就是 $s(1,j)$ 的前缀与 $s(i - j + 1,i)$ 的后缀的不包括它们本身的最长公共串！（你可以把 $s(i - j + 1,i)$ 的后缀看成是 $s(1,j)$ 的后缀）那么既然它们是公共的，也就是说它就是前后缀（只不过不是最长的而已，是第二长，第一长是 $s(1,j)$ ）那么让 $j$ 等于它继续匹配即可，因为它刚好是第二长，而又由于第一长匹配不下去，那么它继续匹配下去必然是最长前后缀。当然，如果第二长的也匹配不下去，那就换成第二长的最长前后缀，也就是第三长的继续匹配，理由同上。那么我们就只需要当下一位（ $s(i + 1)$ 和 $s(j+1)$ ）匹配不上时，不断地使 $j=p(j)$ ，找到可以匹配的那个 $j$ 就可以啦！写成代码就是：

 for(int i = 1;i < m;i++)
{
    while(j > 0 && s[i + 1] != s[j + 1]) j = p[j];
    if(s[i + 1] == s[j + 1]) j++;
    p[i + 1] = j;
}

然后 $p$ 数组就被求出来啦！注意， $j$ 的初值是 $0$ 哦！

$\mathtt{代码实现}$

 for(int i = 1;i < m;i++)
{
    while(j > 0 && s[i + 1] != s[j + 1]) j = p[j];
    if(s[i + 1] == s[j + 1]) j++;
    p[i + 1] = j;
}
 
int j = 0;
for(int i = 0;i < n;i++)
{
    while(j > 0 && b[j + 1] != a[i + 1]) j = p[j];
    if(a[i + 1] == b[j + 1]) j++;
    if(j == m)
    {
        /*i - m + 2 上可以匹配到*/
        j = p[j];
    }
}

上一篇CF2020E 做题记录

下一篇Manacher 算法学习笔记

本文作者：邻补角の杂货铺

本文链接：https://www.cnblogs.com/sslbj/p/18743454

posted @ 2025-02-28 15:59 邻补角-SSA 阅读(3) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

邻补角の杂货铺

密码是那位同学的四字名言。

KMP 算法学习笔记

KMP 字符串匹配算法

$\mathtt{一些定义}$

$\mathtt{引入：抽象的暴力算法形式}$

$\mathtt{优化：KMP\ 算法}$

$\mathtt{next\ 数组的新定义}$

$\mathtt{next\ 数组的求法}$

$\mathtt{代码实现}$

常用链接

我的标签

合集

随笔分类

随笔档案

阅读排行榜

评论排行榜

最新评论

	for(int i = 1;i + m - 1 <= n;i++)
	{
	bool ok = 1;
	for(int j = i;j <= i + m - 1;j++)
	{
	if(a[i] != b[j])
	{
	ok = 0;
	break;
	}
	}
	if(ok) /在位置 i 上匹配到，进行处理/
	}

	int i = 0;
	while(i <= n)
	{
	if(i - m + 1 < 1) continue;
	bool ok = 1;
	for(int j = i - m + 1;j <= i;j++)
	{
	if(a[i] != b[j])
	{
	ok = 0;
	break;
	}
	}
	if(ok) /在位置 i 上匹配到，进行处理/
	i++;
	}

	int i = 0, j = 0;
	while(i < n && j < m)
	{
	if(a[i + 1] == b[j + 1])
	{
	i++;
	j++;
	}
	else
	{
	i = i + 2 - j;
	j = 0;
	}
	if(j == m)
	{
	/在 i + 1 - m 上匹配到/
	j = 0;
	}
	}

	while(j > 0 && b[j + 1] != a[i + 1]) j = p[j];
	if(a[i + 1] == b[j + 1])
	{
	i ++;
	j++;
	}
	if(j == m)
	{
	/i - m + 1 上可以匹配到/
	j = p[j];
	}

	int j = 0;
	for(int i = 0;i < n;i++)
	{
	while(j > 0 && b[j + 1] != a[i + 1]) j = p[j];
	if(a[i + 1] == b[j + 1]) j++;
	if(j == m)
	{
	/i - m + 2 上可以匹配到/
	j = p[j];
	}
	}

	for(int i = 1;i < m;i++)
	{
	if(s[i + 1] == s[j + 1]) j++;
	p[i + 1] = j;
	}

	for(int i = 1;i < m;i++)
	{
	while(j > 0 && s[i + 1] != s[j + 1]) j = p[j];
	if(s[i + 1] == s[j + 1]) j++;
	p[i + 1] = j;
	}

邻补角の杂货铺

密码是那位同学的四字名言。

KMP 算法学习笔记

KMP 字符串匹配算法

一些定义一些定义\mathtt{一些定义}

引入：抽象的暴力算法形式引入：抽象的暴力算法形式\mathtt{引入：抽象的暴力算法形式}

优化：KMP 算法优化：KMP 算法\mathtt{优化：KMP\ 算法}

next 数组的新定义next 数组的新定义\mathtt{next\ 数组的新定义}

next 数组的求法next 数组的求法\mathtt{next\ 数组的求法}

代码实现代码实现\mathtt{代码实现}

常用链接

我的标签

合集

随笔分类

随笔档案

阅读排行榜

评论排行榜

最新评论

$\mathtt{一些定义}$

$\mathtt{引入：抽象的暴力算法形式}$

$\mathtt{优化：KMP\ 算法}$

$\mathtt{next\ 数组的新定义}$

$\mathtt{next\ 数组的求法}$

$\mathtt{代码实现}$