飞鸟各投林

导航

第5天串

1  串的抽象数据类型的定义
2  串的表示和实现
3  串的模式匹配算法 
 
串,是由零个或多个字符组成的有限序列.                           
如: 'a string'   一般记为S=’a1a2…an’ (n>=0) 其中S是串的名称,
用’’括起来的字符序列是串的值;         
字符个数n称为串的长度.         
零个字符的串称为空串来表示,长度为零.        
由一个或多个空格组成的串称为空格串. 
 
 
串中任意个连续的字符组成的子序列称为该串的子串.         
包含子串的串相应地称为主串.         
通常称字符在序列中的序号为该字符在串中的位置.         
子串在主串中的位置则以子串的第一个字符在主串中的位置来表示.
 
例如: S ='abcaabcaaabc',  T = 'bca'  
 
串的逻辑结构和线性表极为相似,区别 仅在于串的数据对象约束为字符集。
 
串的基本操作和线性表有很大差别
 
在线性表的基本操作中,大多以“单个元素”作为操作对象;     
在串的基本操作中,通常以“串的整体”作为操作对象。 
 
4.1  串的抽象数据类型的定义如下:
 
ADT String {
 数据对象:D={ ai |ai∈CharacterSet,          i=1,2,...,n,       n≥0 }
 数据关系:R1={ < ai-1, ai > | ai-1, ai ∈D,    i=2,...,n }
 基本操作:
StrAssign (&T, chars)
DestroyString(&S)
StrCopy (&T, S)
StrLength(S)
StrCompare (S, T)
Concat (&T, S1, S2)
StrEmpty (S) 
SubString (&Sub, S, pos, len) 
ClearString (&S)
Index (S, T, pos) 
Replace (&S, T, V) 
StrInsert (&S, pos, T) 
StrDelete (&S, pos, len) 
} ADT String 
 
  StrAssign (&T, chars)    初始条件:chars 是字符串常量。   操作结果:把 chars 赋为 T 的值。
  StrCopy (&T, S)            初始条件:串 S 存在。       操作结果:由串 S 复制得串 T
  StrCompare(S,T)           初始条件:  串S和T存在。 操作结果:  若S> T,则返回值 > 0;若S < T,则返回值 < 0; 若S = T,则返回值 = 0。
                                      例如:StrCompare('data', 'state') < 0             StrCompare('cat', 'case') > 0
  StrLength(S)  初始条件:串 S 存在。  操作结果:返回 S 的元素个数,  称为串的长度。 
  Concat(&T,S1,S2) (concatenation)  初始条件:串 S1 和 S2 存在。  操作结果:用 T 返回由 S1 和 S2  联接而成的新串。
  SubString (&Sub, S, pos, len)     初始条件: 串 S 存在,1≤pos≤StrLength(S)  且0≤len≤StrLength(S)-pos+1。
                                                   操作结果: 用 Sub 返回串 S 的第 pos 个字符起 长度为 len 的子串。
   Index(S,T,pos)         初始条件:串S和T存在,T是非空串,1≤pos≤StrLength(S)。
                                操作结果: 若主串 S 中存在和串 T 值相同的子串, 则返回它在主串 S 中第pos个字符之后第一次出现的位置;否则函数值为0。  
   Replace(&S,T,V)    初始条件:串S, T和 V 均已存在, 且 T 是非空串。   
                               操作结果:用V替换主串S中出现 的所有与(模式串)T 相等的不重叠的子串。
   StrInsert (&S, pos, T) 初始条件:串S和T存在, 1≤pos≤StrLength(S)+1。
                                  操作结果:在串S的第pos个字符之前 插入串T。
 
  StrDelete (&S, pos, len) 初始条件:串S存在 1≤pos≤StrLength(S)-len+1。 操作结果:从串S中删除第pos个字符起长度为len的子串。
  ClearString(&S)   初始条件:串S存在。   操作结果:将S清为空串。
 
  对于串的基本操作集可以有不同的定义方法,在使用高级程序设计语言中的串类型时,应以该语言的参考手册为准。 
 
例如:C语言函数库中提供下列串处理函数:
gets(str)  输入一个串;  
puts(str) 输出一个串;  
strcat(str1, str2)  串联接函数; 
strcpy(str1, str2, k)  串复制函数; 
strcmp(str1, str2)  串比较函数;  
strlen(str)  求串长函数; 
 
在上述抽象数据类型定义的13种操作中,  
串赋值StrAssign、串复制Strcopy、  
串比较StrCompare、求串长StrLength、  
串联接Concat以及求子串SubString  等六种操作构成串类型的最小操作子集。  
即:这些操作不可能利用其他串操作来实现,  反之,其他串操作(除串清除ClearString和串  销毁DestroyString外)可在这个最小操作子  集上实现。 
 
  例如,可利用串比较、求串长和求子串等操作实现定位函数Index(S,T,pos)。 
 
 
 1 int Index (String S, String T, int pos) {  
 2     // T为非空串。若主串S中第pos个字符之后存在与 T相等的子串, 则返回第一个这样的子串在S中的位置,否则返回0  
 3     if (pos > 0) {    
 4         n = StrLength(S);  m = StrLength(T);  i = pos;    
 5         while ( i <= n-m+1) {        
 6         SubString (sub, S, i, m);       
 7              if (StrCompare(sub,T) != 0)   ++i ;       
 8              else return i ;    } // while  
 9          } // if  return 0;      // S中不存在与T相等的子串 
10     } // Index 

 

 

 
4.2  串的表示和实现
在程序设计语言中,串只是作为输入或输出的常量出现,则只需存储此串的串值,即字符序列即可。但在多数非数值处理的程序中,串也以变量的形式出现。
一、串的定长顺序存储表示
二、串的堆分配存储表示
三、串的块链存储表示
 

一、串的定长顺序存储表示

1 #define  MAXSTRLEN  255        
2 // 用户可在255以内定义最大串长  
3 typedef unsigned char  Sstring   [MAXSTRLEN + 1];                               
4  // 0号单元存放串的长度
 
特点:

串的实际长度可在这个予定义长度的范围内随意设定,超过予定义长度的串值则被舍去,称之为 “截断” 。

按这种串的表示方法实现的串的运算时,其基本操作为 “字符序列的复制”。
 1 int Index (String S, String T, int pos) {
 2  // T为非空串。若主串S中第pos个字符之后存在与 T相等的子串,
 3   则返回第一个这样的子串在S中的位置,否则返回0
 4   if (pos > 0) {
 5     n = StrLength(S);  m = StrLength(T);  i = pos;
 6     while ( i <= n-m+1) {
 7         SubString (sub, S, i, m);
 8         if (StrCompare(sub,T) != 0)   ++i ;
 9         else return i ;
10     } // while
11   } // if  return 0;          // S中不存在与T相等的子串
12 } // Index
//串的联接算法中需分三种情况处理:
 1 Status Concat(SString S1, SString S2, SString &T) 
 2    {// 用T返回由S1和S2联接而成的新串。若未截断, 则返回TRUE,否则FALSE。
 3   if (S1[0]+S2[0] <= MAXSTRLEN) {// 未截断
 4      T[1..S1[0]] = S1[1..S1[0]];
 5      T[S1[0]+1..S1[0]+S2[0]] = S2[1..S2[0]];
 6      T[0] = S1[0]+S2[0];   uncut = TRUE;      }
 7  
 8    else if (S1[0] <MAXSTRSIZE) { // 截断
 9      T[1..S1[0]] = S1[1..S1[0]];
10      T[S1[0]+1..MAXSTRLEN] = S2[1..MAXSTRLEN-S1[0]];           
11      T[0] = MAXSTRLEN;     uncut = FALSE;  }
12  
13     else { // 截断(仅取S1) 
14     T[0..MAXSTRLEN] = S1[0..MAXSTRLEN];
15      // T[0] == S1[0] == MAXSTRLEN
16     uncut = FALSE;           }
17     }
二、串的堆分配存储表示
1 //串的堆分配存储表示
2 typedef struct {
3    char *ch;     
4       // 若是非空串,则按串长分配存储区,
5       //  否则ch为NULL
6    int  length;   // 串长度
7  } HString;
 通常,C语言中提供的串类型就是以这种存储方式实现的。
系统利用函数malloc( )和free( )进行串值空间的动态管理,为每一个新产生的串分配一个存储区,称串值共享的存储空间为“堆”。        
C语言中的串以一个空字符为结束符, 串长是一个隐含值。
这类串操作实现的算法为:    先为新生成的串分配一个存储空间,然后  进行串值的复制。
 1 Status Concat(HString &T, HString S1, HString S2)
 2 { // 用T返回由S1和S2联接而成的新串
 3       if (T.ch)  free(T.ch);        // 释放旧空间
 4       if (!(T.ch = (char *)malloc((S1.length+S2.length)*sizeof(char))))
 5          exit (OVERFLOW);
 6       T.ch[0..S1.length-1] = S1.ch[0..S1.length-1];
 7       T.length = S1.length + S2.length;
 8       T.ch[S1.length..T.length-1] = S2.ch[0..S2.length-1];
 9       return OK;
10 } // Concat
 1 Status SubString(HString &Sub, HString S,int pos, int len)
 2  { // 用Sub返回串S的第pos个字符起长度为len的子串
 3       if (pos < 1  ||  pos > S.length  ||  len < 0  ||  len > S.length-pos+1)  
 4           return ERROR;
 5       if (Sub.ch)  free (Sub.ch);             // 释放旧空间
 6       if (!len){ Sub.ch = NULL;  Sub.length = 0; } // 空子串
 7       else {   Sub.ch = (char *)malloc(len*sizeof(char));
 8                Sub.ch[0..len-1] = S[pos-1..pos+len-2];
 9                Sub.length = len;
10            } // 完整子串
11       return OK;
12 } // SubString
三、串的块链存储表示
也可用链表来存储串值,由于串的数据元素是一个字符,它只有 8 位二进制数,因此用链表存储时,通常一个结点中存放的不是一个字符,而是一个子串。
存储密度小,运算处理方便,然而,存储量占用大。
 
1 #define  CHUNKSIZE  80  // 块的大小
2   typedef  struct Chunk {  // 结点结构
3     char  ch[CUNKSIZE];
4     struct Chunk  *next;
5   } Chunk;
6   typedef struct {  // 串的链表结构
7     Chunk *head, *tail; // 串的头和尾指针
8      int   curlen;     // 串的当前长度
9   } LString;   

 

实际应用时,可以根据问题所需来设置结点的大小
例如: 在编辑系统中,整个文本编辑区可以看成是一个串,每一行是一个子串,构成一个结点。即: 同一行的串用定长结构(80个字符),   行和行之间用指针相联接。
串值的链式存储结构对某些串操作如联接操作等有一定方便之处,但总的说来不如另外两种存储结构。 
4.3 串的模式匹配算法
这是串的一种重要操作,很多  软件,若有“编辑”菜单项的话,  则其中必有“查找”子菜单项。
首先,回忆一下串匹配(查找)的定义:
INDEX (S, T, pos)
初始条件:串S和T存在,T是非空串,                     
 1≤pos≤StrLength(S)。 
操作结果:若主串S中存在和串T值相 同的子串,返回它在主串S中从第pos个字符开始第一次出现的位置;否则函数 返回值为0。    
 
下面讨论以定长顺序结构表示串时的几种算法。
一、简单算法
二、首尾匹配算法
三、KMP(D.E.Knuth, V.R.Pratt, J.H.Morris) 算法
 
一、简单算法 
 1 int Index(SString S, SString T, int pos) {
 2    // 返回子串T在主串S中第pos个字符之后的位置。若不存在,
 3     // 则函数值为0。其中,T非空,1≤pos≤StrLength(S)。
 4     i = pos;   j = 1;
 5     while (i <= S[0] && j <= T[0]) {
 6       if (S[i] == T[j]) { ++i;  ++j; }   // 继续比较后继字符
 7       else { i = i-j+2;   j = 1; }     // 指针后退重新开始匹配
 8     }
 9    if (j > T[0])  return  i-T[0];
10    else return 0;
11 } // Index
12  
13 while (i <= S[0] && j <= T[0])
14   { if (S[i] == T[j]) { ++i;  ++j; }   // 继续比较后继字符      
15    else { i = i-j+2;   j = 1; } // 指针后退重新开始匹配 }
 
 
 
i=i的原位置+1  =i-(j移动的长度)+1  
                         =i-(j-1)+1  
                         =i-j+2 
二、首尾匹配算法
先比较模式串的第一个字符,   再比较模式串的最后一个字符,      
最后比较模式串中从第二个到 第n-1个字符。
 1 int Index_FL(SString S, SString T, int pos) {
 2     sLength = S[0];  tLength = T[0];
 3     i = pos; 
 4     patStartChar = T[1];  patEndChar = T[tLength];
 5    while (i <= sLength – tLength + 1) {
 6      if (S[i] != patStartChar) ++i;  //重新查找匹配起始点
 7      else  if (S[i+tLength-1] != patEndChar) ++i; 
 8                                              // 模式串的“尾字符”不匹配
 9      else { k = 1;  j = 2;
10             while ( j < tLength && S[i+k] == T[j])
11             { ++k;   ++j; } 
12             if ( j == tLength )  return i;
13             else  ++i;   
14              // 重新开始下一次的匹配检测                                
15             }
16    }
17    return 0;
18   }
    一般情况下简单算法的时间复杂度为O(n+m)。但 主串为  `000000000000000000000000000000001` 模式串为`0000001`时,经常发生匹配到模式串的最后一个字符时,主串指针回溯的现象,导致用 简单算法时最坏情况下时间复杂度为O(n*m)。 改进后的算法思想是:主串指针不回溯,而将模式串滑到尽可能远的一段距离之后(即选择模式串中的某个字符)继续进行比较。 需要解决的问题是:失配时,主串中第i个字符与模式串中的哪个字符再比较
 
三、KMP(D.E.Knuth克努特, J.H.Morris 莫里斯 V.R.Pratt,普拉特) 算法 
KMP算法的时间复杂度可以达到O(m+n)
需要解决的问题是:失配时,主串中第i个字符与模式串中的哪个字符再比较?
 
T[1..k-1] == T[j-k+1..j-1]成立
 
若令next[j]=k,则next[j]表明当模式串中第j个字符与主串中第i个字符失配时,在模式串中需重新和主串中该字符进行比较的字符的位置。
 
定义:模式串的next函数
 
 
 
int Index_KMP(SString S, SString T, int pos)
{ //  1≤pos≤StrLength(S)
     i = pos;   j = 1;
     while (i <= S[0] && j <= T[0]) {
         if (j = 0 || S[i] == T[j]) 
         { ++i;  ++j; }
        // 继续比较后继字符
        else  j = next[j];         // 模式串向右移动
     }
    if (j > T[0])  return  i-T[0]; // 匹配成功
    else return 0;
} // Index_KMP
 
 

 


 
 
 
 
 

posted on 2016-04-11 16:22  飞鸟各投林  阅读(306)  评论(0编辑  收藏  举报