串的模式匹配算法(求子串位置的定位函数Index(S,T,pos))


串的模式匹配的一般方法如算法4.5(在bo4-1.cpp 中)所示:由主串S 的第pos 个字
符起,检验是否存在子串T。首先令i 等于
pos(i 为S 中当前待比较字符的位序),j 等于
1(j 为T 中当前待比较字符的位序),如果S 的
第i 个字符与T 的第j 个字符相同,则i、j 各
加1 继续比较,直至T 的最后一个字符(找
到)。如果还没到T 的最后一个字符,比较就
出现了不同(没找到),则令i 等于pos+1,j 等
于1,由pos 的下一个位置起,继续查找是否
存在子串T。这个过程如图410 所示。

在算法4.5 中,主串S 的指针i 总要回溯,特别是在如图410 所示的有较多字符匹
配而又不完全匹配的情况下,回溯得更多。这时,主串S 的一个字符要进行多次比较,显
然效率较低。
如果能使主串S 的指针i 不回溯,在有些情况下效率则会大为提高。这是可以做到
的,因为主串S 中位于i-1,i-2,⋯ 的字符恰和子串T 中位于j-1,j-2,⋯ 的字符相
等,如图410 所示。仍以图410 为例,当S 和T 在第i(终值)个字符处字符不相符
时,i 仍保持在终值处不动,j 回溯到第1 个字符与i 的当前字符继续进行比较。j 回溯到第
几个字符是由子串T 的模式决定的。算法4.7 根据子串T 生成的next 数组指示j 回溯到第
几个字符。next 数组的意义是这样的:如果next[j]=k,当子串T 的第j 个字符与主串S 的
第i 个字符“失配”时,S 的第i 个字符继续与T 的第k 个字符进行比较,T 的第k 个字符
之前的那些字符均与S 的第i 个字符之前的字符匹配。以教科书中图4.5 为例,设子串T
为“abaabcac”。当T 的第5 个字符与S 的第i 个字符失配时,S 的第i-1 个字符一定是a,
和T 的第4 个字符相等。它和T 的第1 个字
符相等。这样,S 的第i 个字符和T 的第2 个
字符开始比较即可。所以, 对于模式串
“abaabcac”,next[5]=2,详见图411。
算法4.7 求子串的数组next[]还有可改
进之处。以图411 为例:如果T 的第5 个
字符与S 的第i 个字符失配,则S 的第i 个字
符一定不是b。这样,尽管S 的第i-1 个字符

是a,和T 的第1 个字符相等,但S 的第i 个字符肯定和T 的第2 个字符b 不相等。所以
可令next[5]=1,使S 的第i 个字符和T 的第1 个字符开始比较。这样使得模式串又向右
移了一位,提高了匹配的效率。算法4.8 是改进的求数组next[](在算法4.8 中的形参是
nextval[])的算法。
算法4.6 是改进的模式匹配算法。它利用算法4.7 或算法4.8 求得的数组next[],提
高了算法的效率。algo4-1.cpp 是实现改进的模式匹配算法的程序。函数get_next()和
get_nextval()分别求得给定的模式串的数组next[]和nextval[],函数Index_KMP()利用数
组next[]或nextval[]求出模式串在主串中的位置。其中,next[j]=0,并不是将主串的当前
字符与模式串的第0 个字符进行比较(模式串也没有第0 个字符),而是主串当前字符的下
一个字符与模式串的第1 个字符进行比较。


// algo4-1.cpp 实现算法4.6、4.7、4.8的程序
#include"c1.h"
#include"c4-1.h"
#include"bo4-1.cpp"
void get_next(SString T,int next[])
{ // 求模式串T的next函数值并存入数组next。算法4.7
	int i=1,j=0;
	next[1]=0;
	while(i<T[0])
		if(j==0||T[i]==T[j])
		{
			++i;
			++j;
			next[i]=j;
		}
		else
			j=next[j];
}
void get_nextval(SString T,int nextval[])
{ // 求模式串T的next函数修正值并存入数组nextval。算法4.8
	int i=1,j=0;
	nextval[1]=0;
	while(i<T[0])
		if(j==0||T[i]==T[j])
		{
			++i;
			++j;
			if(T[i]!=T[j])
				nextval[i]=j;
			else
				nextval[i]=nextval[j];
		}
		else
			j=nextval[j];
}
int Index_KMP(SString S,SString T,int pos,int next[])
{ // 利用模式串T的next函数求T在主串S中第pos个字符之后的位置的KMP算法。
	// 其中,T非空,1≤pos≤StrLength(S)。算法4.6
	int i=pos,j=1;
	while(i<=S[0]&&j<=T[0])
		if(j==0||S[i]==T[j]) // 继续比较后继字符
		{
			++i;
			++j;
		}
		else // 模式串向右移动
			j=next[j];
		if(j>T[0]) // 匹配成功
			return i-T[0];
		else
			return 0;
}
void main()
{
	int i,*p;
	SString s1,s2; // 以教科书算法4.8之上的数据为例
	StrAssign(s1,"aaabaaaab");
	printf("主串为");
	StrPrint(s1);
	StrAssign(s2,"aaaab");
	printf("子串为");
	StrPrint(s2);
	p=(int*)malloc((StrLength(s2)+1)*sizeof(int)); // 生成s2的next数组空间
	get_next(s2,p); // 利用算法4.7,求得next数组,存于p中
	printf("子串的next数组为");
	for(i=1;i<=StrLength(s2);i++)
		printf("%d ",*(p+i));
	printf("\n");
	i=Index_KMP(s1,s2,1,p); // 利用算法4.6求得串s2在s1中首次匹配的位置i
	if(i)
		printf("主串和子串在第%d个字符处首次匹配\n",i);
	else
		printf("主串和子串匹配不成功\n");
	get_nextval(s2,p); // 利用算法4.8,求得next数组,存于p中
	printf("子串的nextval数组为");
	for(i=1;i<=StrLength(s2);i++)
		printf("%d ",*(p+i));
	printf("\n");
	printf("主串和子串在第%d个字符处首次匹配\n",Index_KMP(s1,s2,1,p));
}

代码的运行结果如下:

/*
主串为aaabaaaab
子串为aaaab
子串的next数组为0 1 2 3 4
主串和子串在第5个字符处首次匹配
子串的nextval数组为0 0 0 0 4
主串和子串在第5个字符处首次匹配
Press any key to continue
*/



posted @ 2014-08-20 20:52  meiyouor  阅读(3402)  评论(0编辑  收藏  举报