字符串匹配算法——KMP算法

KMP算法是一种改进的字符串匹配算法。KMP算法的关键是利用匹配失败后的信息，尽量减少模式串与主串的匹配次数以达到快速匹配的目的。具体实现就是实现一个next()函数，函数本身包含了模式串的局部匹配信息。

下面从一个例子来了解KMP算法：字符串"BBC ABCDAB ABCDABCDABDE"，我想知道，里面是否包含另一个字符串"ABCDABD"？

下面是图解：

1、首先，字符串"BBC ABCDAB ABCDABCDABDE"的第一个字符与搜索词"ABCDABD"的第一个字符，进行比较。因为B与A不匹配，所以搜索词后移一位。

2、因为B与A不匹配，搜索词再往后移。

3、就这样，直到字符串有一个字符，与搜索词的第一个字符相同为止。

4、接着比较字符串和搜索词的下一个字符，还是相同。

5、直到字符串有一个字符，与搜索词对应的字符不相同为止。

6、这时，最自然的反应是，将搜索词整个后移一位，再从头逐个比较。这样做虽然可行，但是效率很差，因为你要把"搜索位置"移到已经比较过的位置，重比一遍。

7、一个基本事实是，当空格与D不匹配时，你其实知道前面六个字符是"ABCDAB"。KMP算法的想法是，设法利用这个已知信息，不要把"搜索位置"移回已经比较过的位置，继续把它向后移，这样就提高了效率。

8、怎么做到这一点呢？可以针对搜索词，算出一张《部分匹配表》（Partial Match Table）。这张表是如何产生的，后面再介绍，这里只要会用就可以了。

9、已知空格与D不匹配时，前面六个字符"ABCDAB"是匹配的。查表可知，最后一个匹配字符B对应的"部分匹配值"为2，因此按照下面的公式算出向后移动的位数：

　　移动位数 = 已匹配的字符数 - 对应的部分匹配值

　　因为 6 - 2 等于4，所以将搜索词向后移动4位。

10、因为空格与Ｃ不匹配，搜索词还要继续往后移。这时，已匹配的字符数为2（"AB"），对应的"部分匹配值"为0。所以，移动位数 = 2 - 0，结果为 2，于是将搜索词向后移2位。

11、因为空格与A不匹配，继续后移一位。

12、逐位比较，直到发现C与D不匹配。于是，移动位数 = 6 - 2，继续将搜索词向后移动4位。

13、逐位比较，直到搜索词的最后一位，发现完全匹配，于是搜索完成。如果还要继续搜索（即找出全部匹配），移动位数 = 7 - 0，再将搜索词向后移动7位，这里就不再重复了。

14、

下面介绍《部分匹配表》是如何产生的。

　　首先，要了解两个概念："前缀"和"后缀"。 "前缀"指除了最后一个字符以外，一个字符串的全部头部组合；"后缀"指除了第一个字符以外，一个字符串的全部尾部组合。

15、"部分匹配值"就是"前缀"和"后缀"的最长的共有元素的长度。以"ABCDABD"为例，

　　－　"A"的前缀和后缀都为空集，共有元素的长度为0；

　　－　"AB"的前缀为[A]，后缀为[B]，共有元素的长度为0；

　　－　"ABC"的前缀为[A, AB]，后缀为[BC, C]，共有元素的长度0；

　　－　"ABCD"的前缀为[A, AB, ABC]，后缀为[BCD, CD, D]，共有元素的长度为0；

　　－　"ABCDA"的前缀为[A, AB, ABC, ABCD]，后缀为[BCDA, CDA, DA, A]，共有元素为"A"，长度为1；

　　－　"ABCDAB"的前缀为[A, AB, ABC, ABCD, ABCDA]，后缀为[BCDAB, CDAB, DAB, AB, B]，共有元素为"AB"，长度为2；

　　－　"ABCDABD"的前缀为[A, AB, ABC, ABCD, ABCDA, ABCDAB]，后缀为[BCDABD, CDABD, DABD, ABD, BD, D]，共有元素的长度为0。

16、"部分匹配"的实质是，有时候，字符串头部和尾部会有重复。比如，"ABCDAB"之中有两个"AB"，那么它的"部分匹配值"就是2（"AB"的长度）。搜索词移动的时候，第一个"AB"向后移动4位（字符串长度-部分匹配值），就可以来到第二个"AB"的位置。

上面的图解是转载网上的，自己弄太麻烦，相信看到这里，大家应该也都明白了KMP算法的实现原理。下面就是我的C#代码实现：

 1 using UnityEngine;
 2 using System.Collections;
 3 
 4 public class KMP
 5 {
 6     /// <summary>
 7     ///获取部分匹配表
 8     /// </summary>
 9     /// <param name="_str"></param>
10     /// <returns></returns>
11     private static int[] GetNext(string _str)
12     {
13         char[] _chars = _str.ToCharArray();
14         int[] _next = new int[_chars.Length];
15         _next[0] = 0;
16         int _index = 0;
17         for (int i = 1; i < _chars.Length; i++)
18         {
19             while (_index > 0 && _chars[i] != _chars[_index])
20             {
21                 _index = _next[_index - 1];
22             }
23             if (_chars[i] == _chars[_index])
24             {
25                 _index++;
26             }
27             _next[i] = _index;
28         }
29         return _next;
30     }
31 
32     /// <summary>
33     /// 判断 _mainStr 字符串是否包含 _modeStr 字符串
34     /// </summary>
35     /// <param name="_mainStr">主字符串</param>
36     /// <param name="_modeStr">模板字符串</param>
37     /// <returns></returns>
38     public static bool ContainString(string _mainStr, string _modeStr)
39     {
40         int[] _next = GetNext(_modeStr);
41         char[] _mainChars = _mainStr.ToCharArray();
42         char[] _modeChars = _modeStr.ToCharArray();
43         int _index = 0;
44         for (int i = 0; i < _mainChars.Length; i++)
45         {
46             while (_index > 0 && _modeChars[_index] != _mainStr[i])
47             {
48                 _index = _next[_index - 1];
49             }
50             if (_modeChars[_index] == _mainStr[i])
51             {
52                 _index++;
53             }
54             if (_index == _modeChars.Length)
55             {
56                 i = i - _modeChars.Length + 1;
57                 return true;
58             }
59         }
60         return false;
61     }
62 }

代码看不懂的可以自己通过断点理一下。

KMP还有一个优化后的版本，还有待研究。待续。。。

posted on 2018-04-10 21:15 NRE 阅读(909) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

阅读排行：
· TypeScript + Deepseek 打造卜卦网站：技术与玄学的结合
· Manus的开源复刻OpenManus初探
· AI 智能体引爆开源社区「GitHub 热点速览」
· 三行代码完成国际化适配，妙~啊~
· .NET Core 中如何实现缓存的预热？

NRE的编程笔记

导航

公告

统计

搜索

常用链接

我的标签

随笔分类 (65)

随笔档案 (63)

阅读排行榜

评论排行榜

推荐排行榜

最新评论

字符串匹配算法——KMP算法