Horspool算法-字符串匹配

不得不说ACM哪怕是没有结果，对于算法能力的训练是毋庸置疑的……

因为老师划了重点，所以讲一下horspool的字符串匹配算法的原理吧。

先声明几个概念，被找的字符串称为匹配串，要找的字符串被称为模式串，当前和模式串相匹配的匹配串的子串被称为匹配子串（废话

在朴素算法中，我们要找一个匹配串是否存在模式串，例如HuangZhi is a genius的匹配串串和ChengJinSen的模式串，那么我们一开始用的方法是用：

HuangZhi is(11 character)

去匹配：

ChengJinSen（11 character）

如果每个字母都相等，那么我们就认为这个模式找到了。

但是这个算法的效率是多少呢，假设匹配串的长度为N,模式串的长度为m,那么易证时间效率为：O(n*m)，在很多时候这个效率都是很慢的。

而Horspool算法（在我看来）是有这样一个基本思想：如果我提前知道了这个步骤是可以跳过的，那我就可以不用去验证了。

我们拿saber和archer作为模式串和匹配串好了：

archer

saber

很明显，在初次对齐的时候，其并不相等，而且我们注意到了，此次匹配串对应的子串是：arche,而最后一个字母是e.

那么很明显的，假如我们一个个移动下去，直到模式串的下一个e为止，都不可能达到匹配的结果。

这里e就是下一个，所以我们把saber稍稍的改一下，改成sebar,这时候就会发现，假设你一个个挪，到e之前的所有都不可能和arche里的e匹配，所以这里我们完全可以直接把e挪到arche的e的位置，然后在进行匹配计算，这样就节省了不少的时间。也就是说，跳过e到模式串最后一个字母之间的距离。

以上的情况，可以归纳为情况1，即匹配子串的最后一个在模式串中出现过，且不是模式串的最后一个字母（最后的特殊性会讲到）

那么，假设最后一个字符在模式串里从来没有出现过呢？那这样，假设一个个移，每一个都必然得不到匹配结果，直到该字符不在匹配子串中，如此，则是直接跳过整个子串的长度。

以上情况归为情况2，匹配子串的最后一个字母没有在模式串里出现过，且不是模式串的最后一个字母。

好了，为什么上面要提到模式串的字母呢？因为这个查询方法存在一个问题，假设匹配子串的最后一个字母在模式串中出现过，且为模式串的最后一位呢？那这样就要分成两种情况来讨论，

1，是模式串的最后一位字母在模式串中唯一，那这样就类似于情况2，直接跳过这个匹配子串最后字母的匹配，即跳过字符长度。这个我们姑且称为情况3。

2，是该字母在模式串中不唯一，那这样就仿照情况二，找到离模式串结尾最近的，且同样是这个字母的字母的位置，并跳转以后匹配。这个我们称为情况4

然后是这个算法的计算机实现，总结了下上述规律，我们发现这个模式串跳转的机制，可以不用每次查找模式串中是否有同样的值，而用预处理的方式来实现，根据情况一二的总结，我们得出，模式串中存在的字母，向右找到其最贴近模式串结尾的同样的字母，并把其离结尾的位置存下，方便应用，若不存在，则直接跳转模式串长度，为了方便，我们也把它存下来，不过跳转长度设为模式串长度。根据情况3,4的总结，我们得出，最后一个字母不应纳入上述的计算。

附带试验用算法：

#include<iostream>
#include<algorithm>
#include<vector>
#include<map>
#include<string>
#define INF 0x3f3f3f3f
using namespace std;
int main() {
     string M, P;
     cin >> M >> P;
     map<char, int>NEXT;
     for (int i = 0; i < 26; i++)
         NEXT['a' + i] = P.size();
     for (int i = 0; i < 26; i++)
         NEXT['A' + i] = P.size();
     for (int i = 0; i < P.size() - 1; i++)
         NEXT[P[i]] = P.size() - i-1;
     int space = 0;
     for (int i = 0; i <= M.size()-P.size();)
     {
         space = i;
         cout << M << endl;
         for (int i = 0; i < space; i++)
             cout << " ";
         cout << P << endl << "_________________________________" << endl;
         if (M.substr(i, P.size()) == P)
             cout << "找到匹配串" << endl;
         i += NEXT[M[i + P.size() - 1]];
     }


}

posted @ 2017-06-14 14:21 duskcloudxu 阅读(713) 评论(2) 收藏举报

刷新页面返回顶部

Library of stultus

愚者的图书馆

Horspool算法-字符串匹配

不得不说ACM哪怕是没有结果，对于算法能力的训练是毋庸置疑的……

公告