一、什么是KMP算法
Knuth-Morris-Pratt 字符串查找算法(常简称为 “KMP算法”)是在一个“主文本字符串” S
内查找一个“词” W
的出现,,以此避免对以前匹配过的字符重新检查。(在原串中匹配模式串)
二、KMP演示
http://staff.ustc.edu.cn/~ypb/jpkc/flash/Find_KMP.swf
三、KMP原理
KMP是一种最常见的改进算法,它可以在匹配过程中失配的情况下,有效地多往后面跳几个字符,加快匹配速度。
在KMP算法中有个数组,叫做前缀数组,也有的叫,每一个模式串都有一个固定的next数组,,当然它描述的也是子串的对称程度,程度越高,值越大,当然之前可能出现再匹配的机会就更大。
对于next数组的理解,参见http://blog.csdn.net/yearn520/article/details/6729426#t0
- void SetPrefix(const char *Pattern, int prefix[])
- {
- int i;
- int len=strlen(Pattern);//模式字符串长度。
- prefix[0]=0;
- for(i=1; i<len; i++)
- {
- int k=prefix[i-1];
- //不断递归判断是否存在子对称,k=0说明不再有子对称,Pattern[i] != Pattern[k]说明虽然对称,但是对称后面的值和当前的字符值不相等,所以继续递推
- while( Pattern[i] != Pattern[k] && k!=0 )//例i等于14时,求prefix[14]的值
- k=prefix[k-1]; //继续递归
- if( Pattern[i] == Pattern[k])//找到了这个子对称,或者是直接继承了前面的对称性,这两种都在前面的基础上++
- prefix[i]=k+1;
- else
- prefix[i]=0; //如果遍历了所有子对称都无效,说明这个新字符不具有对称性,清0
- }
- prefix[0]=-1;
- }
四、测试小例
- #include <iostream>
- #include <cstring>
- #include <string>
- using namespace std;
- string sorg;
- string spat;
- int prefix[10000];
- int result[20];
- void init()
- {
- sorg="";
- spat="";
- memset(prefix,0,sizeof(int)*10000);
- //memset(result,0,sizeof(int)*20);
- }
- void setprefix(string temp,int next[])
- {
- int len=temp.size();
- next[0]=0;
- for(int i=1;i<len;i++)
- {
- int k=next[i-1];
- while(temp[k]!=temp[i]&&k!=0)
- k=next[k-1];
- if(temp[k]==temp[i])
- next[i]=k+1;
- else
- next[i]=0;
- }
- next[0]=-1;
- for(int i=0;i<len;i++)
- if(next[i]>=1)
- next[i]=next[i]-1;
- }
- int kmp(string s1,string s2)
- {
- int number=0;
- int i=0;
- int j=0;
- while(i<(int)s1.size()&&j<(int)s2.size())
- {
- if(j==-1||s1[i]==s2[j])
- {
- i++;
- j++;
- }
- else
- j=prefix[j];
- if(j==s2.size())
- {
- i=i-j+1;
- j=0;
- number++;
- }
- }
- return number;
- }
- int main()
- {
- int t;
- cin>>t;
- memset(result,0,sizeof(int)*20);
- for(int i=0;i<t;i++)
- {
- init();
- //cout<<"input spat string:"<<endl;
- cin>>spat;
- //cout<<"input sorg string:"<<endl;
- cin>>sorg;
- setprefix(spat,prefix);
- result[i]=kmp(sorg,spat);
- }
- for(int j=0;j<t;j++)
- cout<<result[j]<<endl;
- return 0;
- }