字符串模式匹配(一)——单模匹配(KMP)

单模匹配的常用算法为KMP，多模匹配常用算法为AC自动机。

暴力匹配法(BF, $O(|S|\times |T|)$ )

设源串 $S$ 的匹配指针为 $i$ ，模式串 $T$ 的匹配指针为 $j$ 。暴力法通过逐个比较 $S$ 与 $T$ 中的每个字符进行模式匹配。

算法流程：循环执行下列步骤，直到 $i$ 越界，匹配结束：

若 $S [i] = T [j]$ ，该点成功匹配，继续比较。若 $j$ 越界则为成功匹配，j=0进行下次匹配。
若 $S[i]\ne T[j]$ ，则为二者的失配点，回溯二者的匹配指针。二者在失配前均为成功匹配，匹配指针一直同步变化， $j$ 为相对于匹配开始点的增量，因此本轮匹配起点即为 $i - j$ 。 $i$ 回溯到起点的下一个位置i=i-j+1，j=0。

string s,t;
vector<int>ans;//记录所有成功匹配开始点下标
void bf(){
    int i=0,j=0;
    while(i<s.size()){
        if(t[j]==s[i]){
            i++,j++;
            if(j>=t.size()) ans.push_back(i-t.size()),j=0;//j越界则产生答案
        }else i=i-j+1,j=0;//匹配失败,回溯
    }
}

KMP( $O (∣ S ∣ + ∣ T ∣)$ )

KMP是在BF上进行改进的单模匹配算法，其主要改进是最长公共前后缀数组，以避免大量的非必要回溯。

大量回溯的不必要性

设源串 $S$ 的匹配指针为 $i$ ，模式串 $T$ 的匹配指针为 $j$ 。设当前轮匹配的失配点前， $S$ 中成功匹配部分为其子串 $S^{'}$ ， $T$ 中成功匹配部分为其前缀 $T^{'}$ ， $S^{'}$ 与 $T^{'}$ 完全相同。

若 $T^{'}$ 中每个字符都不同：失配时暴力法的回溯为i=i-j+1，j=0，但 $i$ 的回溯是完全不必要的。由于 $T^{'}$ 中每个字符都不同，因此S[i-j+1]也不可能与T[0]相同。 $i$ 不动，j=0即可。
若 $T^{'}$ 中有部分字符相同，且相同部分为 $T^{'}$ 的长度为 $L$ 的前缀和后缀： $S^{'}$ 也具有等长的相同前后缀，因此 $T^{'}$ 前缀与 $S^{'}$ 后缀已经匹配，这部分无需重复匹配。失配时 $i$ 不动， $j$ 移动到 $T^{'}$ 前缀的下个位置L继续匹配即可。
若 $T^{'}$ 中部分字符相同，且相同部分并非 $T^{'}$ 的前缀和后缀：此种情况等价于 $T^{'}$ 中每个字符都不同。 $i$ 不动，j=0即可。

由此可得， $i$ 完全没有必要回溯，只对 $j$ 回溯即可。

最长公共前后缀数组

定义数组 $N e x t [j]$ ，设模式串 $T$ 的前 $j - 1$ 个字符构成其前缀 $T^{'}$ ，则 $N e x t [j]$ 存储 $T^{'}$ 的前缀与后缀的最长交集长度(注意此处均指不包含 $T^{'}$ 自身的真前后缀)，则 $T^{'}$ 的后缀中最后下标为 $j - 1$ ， $T^{'}$ 前缀中最后下标为 $N e x t [j] - 1$ (公共长度-1，注意字符串下标从 $0$ 开始)，代表当失配时， $j$ 所回溯的位置。

若 $T [i] = T [j]$ ，则 $[0, i]$ 的长度转移自 $[0, i - 1]$ 的长度并 $+ 1$ 。 $N e x t [i + 1] = N e x t [i] + 1$ 。
若 $T[i]\ne T[j]$ ，则前缀与后缀失配，属于回溯分析中的情况3，后缀失去后缀特性，无法在KMP中用于直接跳跃， $j$ 回溯。 $N e x t [i + 1] = 0, j = N e x t [j]$ 。

获取最长公共前后缀数组的本质：模式串本身在进行自我模式匹配。

string s,t;//下标从0开始
vector<int>Next,ans;//注意next是cpp的关键字
void getNext(){//本质:模式串在进行自我模式匹配
    Next.resize(t.size()+1);
    Next[0]=0,Next[1]=0;//Next[0]不用;由于在找真前后缀的最长交集长度,因此Next[1]为0
    for(int i=1;i<t.size();i++){
        int j=Next[i];
        while(j&&t[i]!=t[j]) j=Next[j];//j在失配点跳跃到Next[j]
        if(t[i]==t[j]) Next[i+1]=j+1;//[0,i]的答案转移自[0,i-1]+1
        else Next[i+1]=0;//后缀失去后缀特性
    }
}
void kmp(){
    getNext();
    int j=0;
    for(int i=0;i<s.size();i++){
        while(j&&s[i]!=t[j]) j=Next[j];//j在失配点跳跃到Next[j]
        if(s[i]==t[j]) j++;
        if(j==t.size()) ans.push_back(i+1-t.size());//j越界,则匹配成功
    }
}

posted @ 2025-01-16 15:18 椰萝Yerosius 阅读(130) 评论(0) 收藏举报来源

刷新页面返回顶部

椰萝Yerosius的博客

字符串模式匹配(一)——单模匹配(KMP)