Living-Dream 系列笔记第74期

Posted on 2024-08-05 12:14 _XOFqwq 阅读(4) 评论(0) 编辑收藏举报

Kobe-Morris-Pratt 算法

定义

一些基本定义：

border：是一个字符串的子串（不与其本身相同）且满足既是其前缀又是其后缀的字符串，我们称之为该字符串的一个 border。

Kobe-Morris-Pratt 算法（以下简称 KMP 算法），是解决字符串匹配问题的一种算法，实际做题中常偏思维，通常用到的只有其中的 border 相关性质（即通常所说的 \(nxt\) 数组）。

在字符串匹配中，当 \(s\) 与 \(t\) 某一下标的字符不相同，则我们称此种情况为失配，下文亦同。

朴素匹配

显然，朴素匹配即为每次失配则令 \(t\) 移动一位继续尝试匹配直到全匹配上为止。

时间复杂度 \(O(n \times m)\)。

KMP 匹配

我们观察到，朴素匹配之所以效率低，是因为它每次失配时只让 \(t\) 移动一位。而失配时可能前面已经匹配了许多位，只移动一位就会导致大量的相同字符重复匹配。

结论：KMP 在每次失配时，\(t\) 串下标应跳到从开头到失配前一位的子串的最长 border 的长度的下标处。

证明：

Q：为什么要跳到 border 的长度下标处？

A：画个图观察可得，这样跳就是为了使 \(s\) 与 \(t\) 的后缀与前缀对齐。
Q：为什么要让后缀与前缀对齐？取中间的不行吗？

A：因为这样跳的距离更远，效率更高。
Q：为什么要跳到最长 border 的长度下标处？

A：选最长的 border，就意味着在 \(s\) 的最长后缀之前，不会有任何子串与 \(t\) 最长前缀有匹配的可能，那肯定选择直接跳过。而选的更小，则会导致前面可能有匹配的可能，从而导致遗漏。

综上所述即为 KMP 算法的主要逻辑与原理。

时间复杂度 \(O(n+m)\)。

最长 border 的求取

我们令 \(nxt_i\) 表示 \(t\) 在下标 \(i\) 失配后要跳到的位置。

根据上述推论，它同时也表示 \(t\) 在下标 \(i-1\) 结尾的最长 border 的长度。

既然是求最长相同的前缀与后缀，那么我们也可以不断尝试将 \(t\) 进行自匹配，每次成功匹配就记录 \(nxt\) 值，失配也按上述处理即可。

时间复杂度 \(O(n+m)\)。

综上，KMP 算法的总时间复杂度即为 \(O(n+m)\)。

P3375

板子。

code

#include<bits/stdc++.h>
using namespace std;

const int N=1e6+5; 
string s,t;
int nxt[N];

void getnxt(){
	int i=0,j=-1;
	nxt[0]=-1;
	for(;i<t.size();){
		if(j==-1||t[i]==t[j])
			i++,j++,nxt[i]=j;
		else 
			j=nxt[j];
	}
}
void kmp(){
	getnxt();
	int i=0,j=0;
	for(;i<s.size();){
		if(j==t.size()-1&&s[i]==t[j])
			cout<<i-j+1<<'\n',j=nxt[j];
		if(j==-1||s[i]==t[j])
			i++,j++;
		else
			j=nxt[j];
	}
}

int main(){
	cin>>s>>t;
	kmp();
	for(int i=1;i<=t.size();i++) cout<<nxt[i]<<' ';
	return 0;
}

P4391

结论：答案即为 \(n-nxt_n\)。（KMP 题中有很多结论题，被薄纱了 /kk）

证明：

Case 1：字符串最长 border 无重叠部分。

首先蓝色部分一定相等。

由于题目给的是子串，所以我可以复制一个红色部分使得两部分相等。

此时最短的为红 + 蓝，即 \(n-nxt_n\)。

还能更短吗？不能，因为空出来的部分没有子串可以复制出它。

Case 2：字符串最长 border 有重叠部分。

（重叠部分为最中间的蓝色块）

首先，字符串内的蓝 + 红 + 蓝是一个最长 border,它们是相等的。

因为它们相等，蓝色部分又是后缀的一个前缀，所以我在前缀中也能找到一个相同的前缀，同理在后缀中也能找到一个相同后缀，复制一个红色部分后，后缀的相同后缀就能作为一个新的循环节的前缀了。

综上，最短的是蓝 + 红，即 \(n-nxt_n\)。

不能更短的原因同上。

code

#include<bits/stdc++.h>
using namespace std;

const int N=1e6+5; 
string s;
int n,nxt[N];

void getnxt(){
	int i=0,j=-1;
	nxt[0]=-1;
	for(;i<n;){
		if(j==-1||s[i]==s[j])
			i++,j++,nxt[i]=j;
		else 
			j=nxt[j];
	}
}

int main(){
	cin>>n>>s;
	getnxt();
	cout<<n-nxt[n];
	return 0;
}

CF1200E

进食后人：不要用 substr / +，这俩玩意都是 \(O(n)\) 的，用 erase / += 替代即可。

容易观察到一个很显然的结论：将一个字符串接到之前答案的前面，记所拼成的新字符串的最长 border 的长度为 \(x\)，则只要取前一个字符串加上后一个字符串去掉前 \(x\) 位即为当前答案。

然后直接做即可。

注意：

因为最长 border 长度不会超过两字符串长度取 \(\min\)，于是只需取之前答案的这么多位即可，不然会超时；
拼接时要在中间加一个任意字符（不是大小写字母或数字），不然答案可能会越界。

code

#include<bits/stdc++.h>
using namespace std;

const int N=1e6+5;
int n,nxt[N];
string s[N];

int main(){
	ios::sync_with_stdio(0);
	cin>>n;
	string ans="";
	for(int i=1;i<=n;i++){
		cin>>s[i];
		if(i==1) ans+=s[i];
		else{
			string now="";
            now+=s[i];
            now+="#";
            now+=ans.substr(ans.size()-min(ans.size(),s[i].size()));
			int j=0,k=-1;
    		nxt[0]=-1;
			for(;j<now.size();){
				if(k==-1||now[j]==now[k])
					j++,k++,nxt[j]=k;
				else
					k=nxt[k];
			}
			s[i].erase(0,nxt[now.size()]);
            ans+=s[i];
		}
	}
	cout<<ans;
	return 0;
}

刷新页面返回顶部

0-0