数据结构与算法之KMP 字符串匹配

举例来说，有一个字符串"DSFFKFJD KFJLKFDLJFJ IWWJKJFJIA"，我想知道，里面是否包含另一个字符串"JFJI",有的话就返回在原字符串中的下标

先看看Java编码的实现

public static void main(String[] args) {
		String source = "DSFFKFJD KFJLKFDLJFJ IWWJKJFJIA";
		String des = "JFJI";
		for (int i = 0; i < source.length() - des.length() + 1; i++) {
			int j = 0;
			for (; j < des.length(); j++) {
				if (des.charAt(j) != source.charAt(i + j)) {
					break;
				}
			}
			if (j == des.length()) {
				System.out.println("index:" + i);
				break;
			}
		}
	}

输出结果 ： index:26

时间复杂度最坏情况下为 O

具体说说KMP实现的过程，Knuth-Morris-Pratt算法（简称KMP）是最常用的之一。它以三个发明者命名，起头的那个K就是著名科学家Donald Knuth。

1.首先，字符串"DSFFKFJD KFJLKFDLJFJ IWWJKJFJIA"的第一个字符与搜索词"JFJI"的第一个字符，进行比较。因为D与J不匹配，所以搜索词后移一位。

2.因为S与J不匹配，搜索词再往后移。

3.就这样，直到字符串有一个字符，与搜索词的第一个字符相同为止。

4.接着比较字符串和搜索词的下一个字符，还是相同。

5.直到字符串有一个字符，与搜索词对应的字符不相同为止。

6.这时，最自然的反应是，将搜索词整个后移一位，再从头逐个比较。这样做虽然可行，但是效率很差，因为你要把"搜索位置"移到已经比较过的位置，重比一遍。

7.一个基本事实是，当空格与I不匹配时，你其实知道前面3个字符是"JFJ"。KMP算法的想法是，设法利用这个已知信息，不要把"搜索位置"移回已经比较过的位置，继续把它向后移，这样就提高了效率。

8.怎么做到这一点呢？可以针对搜索词，算出一张《部分匹配表》（Partial Match Table）。这张表是如何产生的，后面再介绍，这里只要会用就可以了。

9.已知空格与I不匹配时，前面3个字符"JFJ"是匹配的。查表可知，最后一个匹配字符J对应的"部分匹配值"为0，因此按照下面的公式算出向后移动的位数：

　　移动位数 = 已匹配的字符数 - 对应的部分匹配值

因为 3 - 0 等于3，所以将搜索词向后移动3位。

10. 因为空格与J不匹配，搜索词还要继续往后移。这时，已匹配的字符数为0,则继续后移1位

11.逐位比较，直到搜索词的最后一位，发现完全匹配，于是搜索完成。如果还要继续搜索（即找出全部匹配），移动位数 = 4 - 0，再将搜索词向后移动4位，这里就不再重复了。

12.下面介绍《部分匹配表》是如何产生的。首先，要了解两个概念："前缀"和"后缀"。 "前缀"指除了最后一个字符以外，一个字符串的全部头部组合；"后缀"指除了第一个字符以外，一个字符串的全部尾部组合。举例字符串"CRETCR"

13."部分匹配值"就是"前缀"和"后缀"的最长的共有元素的长度。以"CRETCR"为例，

"C"的前缀和后缀都为空集，共有元素的长度为0
"CR"的前缀为[C]，后缀为[R]，共有元素的长度为0
"CRE"的前缀为[C,CR]，后缀为[RE,E]，共有元素的长度为0
"CRET"的前缀为[C,CR,CRE]，后缀为[RET,ET,T]，共有元素的长度为0
"CRETC"的前缀为[C,CR,CRE,CRET]，后缀为[RETC,ETC,TC,C]，共有元素的长度为1
"CRETCR"的前缀为[C,CR,CRE,CRET,CRETC]，后缀为[RETCR,RETC,ETC,TC,C]，共有元素的长度为1

posted @ 2017-01-20 16:53 孟凡柱的专栏阅读(271) 评论(0) 收藏举报

刷新页面返回顶部

路漫漫，其修远，吾将上下而求索

数据结构与算法之KMP 字符串匹配

公告