园龄：2年4个月粉丝：19 关注：16

📂OI / 笔记

🔖OI 笔记

2023-10-08 03:37阅读: 26评论: 0推荐: 0

字符串基础与 KMP

合集 - 字符串(5)

1.哈希 hash2023-08-28 2.字典树2023-10-08

3.字符串基础与 KMP2023-10-08

4.字符串进阶(自动机，失配树)2024-07-21 5.AC 自动机2024-11-10

OI-wiki Link

要提到 KMP 算法，首先得提到字符串相关知识。

字符串相关

概念

前缀/后缀：这个很容易理解。
真前缀/真后缀：就是非原串的前缀/后缀。
子串：从原串中选取连续的一段就是一个子串，空串也算子串。
- 任何子串都是一个前缀的后缀/一个后缀的前缀。
周期：当满足 $s_{i} = s_{i + x} (1 ⩽ i ⩽ | s | - x)$ 时， $x$ 是 $s$ 的周期。
Border：当一个字符串 $t$ ，既是 $s$ 的前缀，又是 $s$ 的后缀时， $t$ 就是 $s$ 的一个 Border。

性质

当一个字符串 $t$ 为 $s$ 的 Border 时， $| s | - | t |$ 为 $s$ 的一个周期。
Border 具有传递性，即当 $x$ 为 $y$ 的 Border、 $y$ 为 $z$ 的 Border 时，必然有 $x$ 为 $z$ 的 Border。
Border 传递性 $2$ ：当 $x$ 为 $z$ 的 Border、 $y$ 为 $z$ 的 Border 时，必然有 $x$ 为 $y$ 的 Border。

字符串匹配

模板：P3375 【模板】KMP。

令 $p r e (s, i)$ 表示 $s$ 的长度为 $i$ 的前缀， $s u f (s, i)$ 表示 $s$ 的长度为 $i$ 的后缀。

给定两个字符串 $s$ 和 $t$ ( $1 ⩽ | s |, | t | ⩽ 10^{5}$ )，现在要查询 $s$ 在 $t$ 中的出现位置有哪些。

暴力匹配 $O (| s | \times | t |)$ ，爆炸。

我们拿两个指针 $i, j$ 表示 $s [1 \dots i]$ 与 $t [j - i + 1 \dots j]$ 完全相同， $j$ 在 $1 \sim | t |$ 循环，同时 $i$ 相应变化，始终满足 KMP 性质： $s u f (p r e (t, j), i) = p r e (s, i)$ ( $i$ 越大越好)。

在更新时 $i, j$ 时：

若 $s_{i + 1} = t_{j + 1}$ ，则各自后移，i++, j++;，当 $i = n$ 时， $s$ 已经完全匹配，可以推出它的起始位置等。
否则，右移 $j$ ，调整 $i$ ，使得 $s u f (p r e (t, j), i) = p r e (s, i)$ 仍然满足，那么该如何调整呢？

Next[] 失配数组

在发生不匹配时，我们需要调整 $i$ ，这个可以通过预处理来解决，通常定义为 Next 数组，有时也叫 fail 数组(失配数组)。

nxt[i] = max{k | pre(s, k) = suf(pre(s, i), k)}，即 $p r e (s, i)$ 的最长 Border。

若 $p r e (s, k)$ 为 $p r e (s, i)$ 的 Border，则有：

$p r e (s, k - 1)$ 为 $p r e (s, i - 1)$ 的 Border。
$s_{k} = s_{i}$ 。

求解方法

假设 $p r e (s, i - 1)$ 的所有 Border 长度为 $k_{1} > k_{2} > k 3 \dots$ 。

需要找到其中最大的 $k$ 使得 $s_{k + 1} = s_{i}$ 。
此时 nxt[i] = k + 1(即 $p r e (s, i)$ 的最长 Border)。

根据定义和 Border 的传递性， $p r e (s, i - 1)$ 的所有 Border 其实就是 $n x t_{i - 1}, n x t_{n x t_{i - 1}} \dots$

求 $n x t_{i}$ 就是 $k = n x t_{i - 1}$ 开始检查 $s_{k + 1} = s_{j}$ 是否成立，不成立就一直往前找 Next。 $k = n x t_{k}$ 然后重复上述判断(找到满足条件的最长 Border)。

Code

 void get_fail () {
  nxt[0] = -1;
  for (int i = 2, j = 0; i <= m; i++) {
    while (j >= 0 && t[i] != t[j + 1]) j = nxt[j];
    nxt[i] = ++j;
  }
}

求完了失配数组，剩下就好办了。

KMP Code

 for (int i = 1, j = 0; i <= n; i++) {
  while (j >= 0 && s[i] != t[j + 1]) j = nxt[j];
  j++;
  if (j == m) {
    cout << i - j + 1 << '\n';
  }
}

模板完整代码

 #include <bits/stdc++.h>
 
using namespace std;
 
const int N = 1e6 + 10;
 
string s, t;
int n, m, nxt[N];
 
void get_fail () {
  nxt[0] = -1;
  for (int i = 2, j = 0; i <= m; i++) {
    while (j >= 0 && t[i] != t[j + 1]) j = nxt[j];
    nxt[i] = ++j;
  }
}
 
int main () {
  ios::sync_with_stdio(0), cin.tie(0);
  cin >> s >> t, n = s.size(), m = t.size(), s = " " + s, t = " " + t;
  get_fail();
  for (int i = 1, j = 0; i <= n; i++) {
    while (j >= 0 && s[i] != t[j + 1]) j = nxt[j];
    j++;
    if (j == m) {
      cout << i - j + 1 << '\n';
    }
  }
  for (int i = 1; i <= m; i++) {
    cout << nxt[i] << ' ';
  }
  return 0;
}

时间复杂度： $O (| s | + | t |)$ 。

字符串的周期

性质里有，而字符串 $s$ 的最小周期则是 $| s | - n x t_{| s |}$ 。

失配树

顾名思义，就是将 $i (1 ⩽ i ⩽ n)$ 连向 $n x t_{i}$ 所形成的树。

这棵树有什么用呢？树上的两个节点 $x, y$ 的 LCA 就是 $p r e (s, x)$ 和 $p r e (s, y)$ 的最长公共 Border。

而一个节点 $i$ 的祖先则都是 $p r e (s, i)$ 的 Border。

例题：P5829 【模板】失配树 | P3435 [POI2006] OKR-Periods of Words。

上一篇字典树

下一篇基础搜索

本文作者：wnsyou の blog

本文链接：https://www.cnblogs.com/wnsyou-blog/p/KMP.html

posted @ 2023-10-08 03:37 wnsyou 阅读(26) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

wnsyou の blog

字符串基础与 KMP

字符串相关

概念

性质

字符串匹配

Next[] 失配数组

求解方法

Code

KMP Code

模板完整代码

字符串的周期

失配树

公告

常用链接

最新随笔

我的标签

积分与排名

合集 (16)

随笔分类 (47)

随笔档案 (90)

文章档案 (1)

相册 (5)

阅读排行榜

评论排行榜

推荐排行榜

最新评论

	void get_fail () {
	nxt[0] = -1;
	for (int i = 2, j = 0; i <= m; i++) {
	while (j >= 0 && t[i] != t[j + 1]) j = nxt[j];
	nxt[i] = ++j;
	}
	}

	for (int i = 1, j = 0; i <= n; i++) {
	while (j >= 0 && s[i] != t[j + 1]) j = nxt[j];
	j++;
	if (j == m) {
	cout << i - j + 1 << '\n';
	}
	}

	#include <bits/stdc++.h>

	using namespace std;

	const int N = 1e6 + 10;

	string s, t;
	int n, m, nxt[N];

	void get_fail () {
	nxt[0] = -1;
	for (int i = 2, j = 0; i <= m; i++) {
	while (j >= 0 && t[i] != t[j + 1]) j = nxt[j];
	nxt[i] = ++j;
	}
	}

	int main () {
	ios::sync_with_stdio(0), cin.tie(0);
	cin >> s >> t, n = s.size(), m = t.size(), s = " " + s, t = " " + t;
	get_fail();
	for (int i = 1, j = 0; i <= n; i++) {
	while (j >= 0 && s[i] != t[j + 1]) j = nxt[j];
	j++;
	if (j == m) {
	cout << i - j + 1 << '\n';
	}
	}
	for (int i = 1; i <= m; i++) {
	cout << nxt[i] << ' ';
	}
	return 0;
	}

wnsyou の blog

字符串基础与 KMP

字符串相关

概念

性质

字符串匹配

Next[] 失配数组

求解方法

Code

KMP Code

模板完整代码

字符串的周期

失配树

公告

常用链接

最新随笔

我的标签

积分与排名

合集 (16)

随笔分类 (47)

随笔档案 (90)

文章档案 (1)

相册 (5)

阅读排行榜

评论排行榜

推荐排行榜

最新评论

{{tag.name}}

有可能是