字符串匹配之BM算法

一、前言

  在用于查找子字符串的算法当中,BM(Boyer-Moore)算法是目前被认为最高效的字符串搜索算法,它由Bob Boyer和J Strother Moore设计于1977年。 一般情况下,比KMP算法快3-5倍。该算法常用于文本编辑器中的搜索匹配功能,比如大家所熟知的GNU grep命令使用的就是该算法,这也是GNU grep比BSD grep快的一个重要原因,具体推荐看下我最近的一篇译文“为什么GNU grep如此之快?”作者是GNU grep的编写者Mike Haertel。

二、BM算法原理

 

1.

假定字符串为"HERE IS A SIMPLE EXAMPLE",搜索词为"EXAMPLE"。

2.

首先,"字符串"与"搜索词"头部对齐,从尾部开始比较。

这是一个很聪明的想法,因为如果尾部字符不匹配,那么只要一次比较,就可以知道前7个字符(整体上)肯定不是要找的结果。

我们看到,"S"与"E"不匹配。这时,"S"就被称为"坏字符"(bad character),即不匹配的字符。我们还发现,"S"不包含在搜索词"EXAMPLE"之中,这意味着可以把搜索词直接移到"S"的后一位。

3.

依然从尾部开始比较,发现"P"与"E"不匹配,所以"P"是"坏字符"。但是,"P"包含在搜索词"EXAMPLE"之中。所以,将搜索词后移两位,两个"P"对齐。

4.

我们由此总结出"坏字符规则":

  后移位数 = 坏字符的位置 - 搜索词中的上一次出现位置

如果"坏字符"不包含在搜索词之中,则上一次出现位置为 -1。

以"P"为例,它作为"坏字符",出现在搜索词的第6位(从0开始编号),在搜索词中的上一次出现位置为4,所以后移 6 - 4 = 2位。再以前面第二步的"S"为例,它出现在第6位,上一次出现位置是 -1(即未出现),则整个搜索词后移 6 - (-1) = 7位。

5.

依然从尾部开始比较,"E"与"E"匹配。

6.

比较前面一位,"LE"与"LE"匹配。

7.

比较前面一位,"PLE"与"PLE"匹配。

8.

比较前面一位,"MPLE"与"MPLE"匹配。我们把这种情况称为"好后缀"(good suffix),即所有尾部匹配的字符串。注意,"MPLE"、"PLE"、"LE"、"E"都是好后缀。

9.

比较前一位,发现"I"与"A"不匹配。所以,"I"是"坏字符"。

10.

根据"坏字符规则",此时搜索词应该后移 2 - (-1)= 3 位。问题是,此时有没有更好的移法?

11.

我们知道,此时存在"好后缀"。所以,可以采用"好后缀规则":

  后移位数 = 好后缀的位置 - 搜索词中的上一次出现位置

举例来说,如果字符串"ABCDAB"的后一个"AB"是"好后缀"。那么它的位置是5(从0开始计算,取最后的"B"的值),在"搜索词中的上一次出现位置"是1(第一个"B"的位置),所以后移 5 - 1 = 4位,前一个"AB"移到后一个"AB"的位置。

再举一个例子,如果字符串"ABCDEF"的"EF"是好后缀,则"EF"的位置是5 ,上一次出现的位置是 -1(即未出现),所以后移 5 - (-1) = 6位,即整个字符串移到"F"的后一位。

这个规则有三个注意点:

  (1)"好后缀"的位置以最后一个字符为准。假定"ABCDEF"的"EF"是好后缀,则它的位置以"F"为准,即5(从0开始计算)。

  (2)如果"好后缀"在搜索词中只出现一次,则它的上一次出现位置为 -1。比如,"EF"在"ABCDEF"之中只出现一次,则它的上一次出现位置为-1(即未出现)。

  (3)如果"好后缀"有多个,则除了最长的那个"好后缀",其他"好后缀"的上一次出现位置必须在头部。比如,假定"BABCDAB"的"好后缀"是"DAB"、"AB"、"B",请问这时"好后缀"的上一次出现位置是什么?回答是,此时采用的好后缀是"B",它的上一次出现位置是头部,即第0位。这个规则也可以这样表达:如果最长的那个"好后缀"只出现一次,则可以把搜索词改写成如下形式进行位置计算"(DA)BABCDAB",即虚拟加入最前面的"DA"。

回到上文的这个例子。此时,所有的"好后缀"(MPLE、PLE、LE、E)之中,只有"E"在"EXAMPLE"还出现在头部,所以后移 6 - 0 = 6位。

12.

可以看到,"坏字符规则"只能移3位,"好后缀规则"可以移6位。所以,Boyer-Moore算法的基本思想是,每次后移这两个规则之中的较大值。

更巧妙的是,这两个规则的移动位数,只与搜索词有关,与原字符串无关。因此,可以预先计算生成《坏字符规则表》和《好后缀规则表》。使用时,只要查表比较一下就可以了。

13.

继续从尾部开始比较,"P"与"E"不匹配,因此"P"是"坏字符"。根据"坏字符规则",后移 6 - 4 = 2位。

14.

从尾部开始逐位比较,发现全部匹配,于是搜索结束。如果还要继续查找(即找出全部匹配),则根据"好后缀规则",后移 6 - 0 = 6位,即头部的"E"移到尾部的"E"的位置。

三、BM算法原理探讨

该算法的难点在于如何生成坏字符规则表和好后缀规则表。下面我们对这两个数组分别进行探讨。

  1、坏字符算法

    (1)坏字符算法原理

      当出现一个坏字符时, BM算法向右移动模式串, 让模式串中最靠右的对应字符与坏字符相对,然后继续匹配。坏字符算法有两种情况。

      Case1:模式串中有对应的坏字符时,让模式串中最靠右的对应字符与坏字符相对(PS:BM不可能走回头路,因为若是回头路,则移动距离就是负数了,肯定不是最大移动步数了),如下图。

BM-math05

      Case2:模式串中不存在坏字符,很好,直接右移整个模式串长度这么大步数,如下图。

BM-math06

 

 

    (2)坏字符算法具体实现  

      这个计算应该很容易,似乎只需要bmBc[i] = m – 1 – i就行了,但这样是不对的,因为i位置处的字符可能在pattern中多处出现(如下图所示),而我们需要的是最右边的位置,这样就需要每次循环判断了,非常麻烦,性能差。

      这里有个小技巧,就是使用字符作为下标而不是位置数字作为下标。这样只需要遍历一遍即可,这貌似是空间换时间的做法,但如果是纯8位字符也只需要256个空间大小,而且对于大模式,可能本身长度就超过了256,所以这样做是值得的                     (这也是为什么数据越大,BM算法越高效的原因之一)。

BM-math09

      如前所述,bmBc[]的计算分两种情况,与前一一对应。

        Case1:字符在模式串中有出现,bmBc[‘v’]表示字符v在模式串中最后一次出现的位置,距离模式串串尾的长度,如上图所示。

        Case2:字符在模式串中没有出现,如模式串中没有字符v,则BmBc[‘v’] = strlen(pattern)。

      写成代码也非常简单:

1  //生成坏子串数组
2    vector<int> badVect(256,needle.size());
3    //数组最后一个值不考虑
4    for(int i = 0;i<needle.size()-1;i++){
5        badVect[needle[i]] = needle.size()-i-1;
6    }

2、好后缀算法

  (1)好后缀算法原理  

    如果程序匹配了一个好后缀, 并且在模式中还有另外一个相同的后缀或后缀的部分, 那把下一个后缀或部分移动到当前后缀位置。假如说,pattern的后u个字符和text都已经匹配了,但是接下来的一个字符不匹配,我需要移动才能匹配。

    如果说后u个字符在pattern其他位置也出现过或部分出现,我们将pattern右移到前面的u个字符或部分和最后的u个字符或部分相同,如果说后u个字符在pattern其他位置完全没有出现,很好,直接右移整个pattern。

    这样,好后缀算法有三种情况,如下图所示:

    Case1:模式串中有子串和好后缀完全匹配,则将最靠右的那个子串移动到好后缀的位置继续进行匹配。

BM-math07

    Case2:如果不存在和好后缀完全匹配的子串,则在好后缀中找到具有如下特征的最长子串,使得P[m-s…m]=P[0…s]。

        注:最长子串一定是模式串的前缀串。

BM-math08

    Case3:如果完全不存在和好后缀匹配的子串,则右移整个模式串。

  (2)好后缀算法实现

  这里bmGs[]的下标是数字而不是字符了,表示字符在pattern中位置。

  如前所述,bmGs数组的计算分三种情况,与前一一对应。假设图中好后缀长度用数组suff[]表示。

  Case1:对应好后缀算法case1,如下图,j是好后缀之前的那个位置。

BM-math11

  Case2:对应好后缀算法case2:如下图所示:

BM-math13

  Case3:对应与好后缀算法case3,bmGs[i] = strlen(pattern)= m

BM-math14

    确定好好后缀子串分为以上三种情况后,需要解决以上两个问题:

    a、找到suff[i]与i的定量关系。

    b、确定不同情况下i与j的关系。

           a、找到suff[i]与i的定量关系 

    suff数组的定义:m是pattern的长度

    1. suffix[m-1] = m;
    2. suffix[i] = k
        for [ pattern[i-k+1] ….,pattern[i]] == [pattern[m-1-k+1],pattern[m-1]]

    看上去有些晦涩难懂,实际上suff[i]就是求pattern中以i位置字符为后缀和以最后一个字符为后缀的公共后缀串的长度。不知道这样说清楚了没有,还是举个例子吧:

      i     : 0 1 2 3 4 5 6 7
      pattern: b c  a b a b a b

      当i=7时,按定义suff[7] = strlen(pattern) = 8

      当i=6时,以pattern[6]为后缀的后缀串为bcababa,以最后一个字符b为后缀的后缀串为bcababab,两者没有公共后缀串,所以suff[6] = 0

      当i=5时,以pattern[5]为后缀的后缀串为bcabab,以最后一个字符b为后缀的后缀串为bcababab,两者的公共后缀串为abab,所以suff[5] = 4

        以此类推……

      当i=0时,以pattern[0]为后缀的后缀串为b,以最后一个字符b为后缀的后缀串为bcababab,两者的公共后缀串为b,所以suff[0] = 1

      这样看来代码也很好写:

1  //生成suff
2    for(int i = 0;i<needle.size()-1;i++){
3       // int count = 0;
4        int j = 0;
5        while(((i-j)>=0)&&(needle[i-j]==needle[needle.size()-j-1])){
6            j++;
7        }
8        suff[i] = j;
9    }

     b、确定不同情况下i与j的关系。

      

 1    //好子串下标j
 2    int j = 0;
 3    for(int i = 0;i<needle.size();i++){
 4        if(suff[i] == i+1){
 5            for(;j<needle.size()-i;j++){
 6                 goodVect[j] = needle.size()-suff[i];
 7            }
 8        }
 9        else{
10            j = needle.size()-suff[i]-1;
11            goodVect[j] = needle.size()-i-1;
12        }
13    }

整体代码如下:

 1 class Solution {
 2 public:
 3     int strStr(string haystack, string needle) {
 4 
 5    //S2 BM算法
 6     if(needle.empty()) return 0;
 7     if(haystack.empty()) return -1;
 8    //生成坏子串数组
 9    vector<int> badVect(256,needle.size());
10    //数组最后一个值不考虑
11    for(int i = 0;i<needle.size()-1;i++){
12        badVect[needle[i]] = needle.size()-i-1;
13    }
14    //生成好子串数组
15    vector<int> goodVect(needle.size(),needle.size());
16    vector<int> suff(needle.size(),needle.size());
17    //生成suff
18    for(int i = 0;i<needle.size()-1;i++){
19       // int count = 0;
20        int j = 0;
21        while(((i-j)>=0)&&(needle[i-j]==needle[needle.size()-j-1])){
22            j++;
23        }
24        suff[i] = j;
25    }
26    //好子串
27    //好子串下标j
28    int j = 0;
29    for(int i = 0;i<needle.size();i++){
30        if(suff[i] == i+1){
31            for(;j<needle.size()-i;j++){
32                 goodVect[j] = needle.size()-suff[i];
33            }
34        }
35        else{
36            j = needle.size()-suff[i]-1;
37            goodVect[j] = needle.size()-i-1;
38        }
39    }
40    //匹配
41     j = 0;
42     int i;
43     int n = haystack.size();
44     int m = needle.size();
45     while(j <= n - m)
46     {
47         for( i = m - 1; i >= 0 && needle[i] == haystack[i + j]; i--);
48         if(i < 0)
49         {
50            return j;
51             j += goodVect[0];
52         }
53         else
54         {
55             j += max(badVect[haystack[i + j]] - m + 1 + i, goodVect[i]);
56         }
57     }
58  return -1;
59  
60     }
61 };

 

posted on 2016-05-25 14:52  时间的女儿  阅读(1486)  评论(0编辑  收藏  举报

导航