KMP字符串匹配算法

复习算法,整理一下这个KMP算法。

给定一个长为n的字符串S,和长为m的模式字符串P,判断P是否在S中出现,如果出现给出位移。

直接的想法就是,循环,从S的第i位开始,比较S[i,..,i+m-1]与P是否相同,这样的循环要n-m+1次,每次循环的时间复杂度O(m),那么总的时间复杂度就是O(nm)。

对字符串的查找有更快的线性时间算法,那就是KMP算法。K就是Knuth。

KMP算法的主要思想是,对模式字符串预处理,得到自身匹配的位移信息,然后在与目标字符串匹配的过程中,如果发生不匹配,那么接下来根据自身匹配的位移信息进行移位,例如S=abababca,P=ababca,模式字符串自身匹配位移信息如下,

    1	2	3	4	5	6
P	a	b	a	b	c	a
π	0	0	1	2	0	1

与目标字符串S的匹配过程,

	1	2	3	4	5	6
S	a	b	a	b	a	b	c	a
P	a	b	a	b	c 
					在这一位出现不匹配,
根据自身匹配位移信息,将P移动如下,
P			a	b	a	

那么就可以直接继续从第5位开始比较。

 

算法过程描述如下,

KMP-Matcher (T,P)
    n = length(T)
    m = length(P)
    π = Compute-Prefix (P)
    q = 0
    for i = 1..n
        while q>0 and P[q+1]!=T[i]
            q = π[q]
        if P[q+1] = T[i]
            q = q + 1
        if q = m
            print "pattern match at shift ", i-m
        q = π[q]

在上面的过程中,用到了计算自身匹配位移信息的函数,这个函数的过程如下,

Compute-Prefix (P)
    m = length(P)
    π[1] = 0
    k = 0
    for q = 2..m
        while k>0 and P[k+1]!=P[q]
            k = π[k]
        if P[k+1] = P[q]
            k = k + 1
        π[q] = k
    return π

预处理过程的时间为O(m),匹配字符串的过程中每个字符只会处理一次,所以时间复杂度是O(n),整个的时间为O(n+m),线性时间复杂度。

用C/C++实现如下, 

一个很好的参考,http://www.juliuschen.com/archives/21.html

比较详细的参考,http://blog.csdn.net/ultrasurf/article/details/1873589

C语言的实现,http://www.cppblog.com/suiaiguo/archive/2009/07/16/90237.html

posted @ 2012-06-16 13:37  Frandy.CH  阅读(415)  评论(0编辑  收藏  举报