子字符串查找之Rabin-Karp算法
1.背景
1.1 算法简介:M.O.Rabin和R.A.Karp发明了一种基于散列的字符串查找算法。我们只需要计算模式串的散列函数,然后利用相同的散列函数计算文本中所有可能的M个字符的子字符串散列值并寻找匹配。如果找到了一个散列值和模式字符串相同的子字符串,再继续验证是否相同。这是一个有趣的算法,重点不在于其只用线性时间解决问题,而在于其对散列技术的使用,这是一个具有启发性的算法!
1.2 结论:Rabin-Karp算法优点是运行速度为线性级别,缺点是内循环很长。(若干次算术运算,而其他算法都只需比较字符)
2.思想
2.1 基本思想:长度为M的模式串对应着一个R进制的M位数。使用除留余数法构造一个能够将 R 进制的 M 位数转化为一个0到Q-1之间的 int 值的散列函数。我们在不溢出的情况下选择一个尽可能大的随机素数Q(因为我们并不真正需要一张散列表,故Q越大越好,冲突越少)。接下来对文本所有长度为M的子串计算散列值并寻找匹配。
2.2 计算散列函数:思想很简单,只需将所有子串散列值求出,一个一个匹配即可,但是如果离线计算每个子串的散列值,时间复杂度与 M*N 成正比,故问题变成了如何在线性时间求出散列值。
2.3 关键思想:既然子串长度确定为M(即模式串的长度M),那我们每次只需向后移动一位,将第一个元素去掉,最后一个元素加上即可更新散列值,再与模式串散列值比较即可。在这种情况下时间复杂度与N成正比。
3.实现
3.1 具体步骤:
- 得到模式串长度M
- 选择一个恰当的R,尽可能大的随机素数Q,构造散列函数
- 计算出模式串的散列值patHash
- 从文本第一个子串开始,依次向右移动,判断其散列值是否与patHash相等
3.2 利用蒙特卡洛法验证正确性:在之前我们讲过,当散列值相同时我们再逐个比较字符是否匹配,以此来确保我们得到的是一个匹配而非仅仅散列值相同的子串,但是我们可以不这么做。假设我们取一个1e20数量级的素数Q,那么一个随机键的散列值与模式串冲突的概率就会小于1e-20。这足以确保答案的正确性,如果仍不放心,我们可以再运行一次,这样就下降到了1e-40,同理你可以将概率降到你满意的数值(牺牲时间)。
3.3 代码示例:
/*
Rabin-Karp算法
-ValenShi
只能匹配数字,选R为10,若想匹配其他字符,需要调整。
*/
#include<cstdio>
#include<cstring>
typedef long long ll;
const int maxn = 1e5;
const int R = 10;
const int Q = 1e9+7;
char pat[maxn],txt[maxn];
int RM;
ll qpow(ll a,ll b,ll M){
ll res = 1;
while(b){
if(b&1) res = res*a%M;
a = a*a%M;
b >>= 1;
}
return res%M;
}
int charValue(char a[],int i){
return a[i]-'0'; //仅适用于数字
}
ll hash(char a[],int m){
ll res = 0;
for(int i = 0;i < m;i++)
res = res*R + charValue(a,i);
return res;
}
bool check(int x){
return true; //可在此对每个字符进行匹配
}
int solve(){
scanf("%s",txt);
scanf("%s",pat);
int m = strlen(pat);
int n = strlen(txt);
RM = qpow(R,m-1,Q);
ll patHash = hash(pat,m);
ll txtHash = hash(txt,m);
if(txtHash == patHash) return 0;
for(int i = 0;i < n-m;i++){
txtHash = (txtHash - RM*charValue(txt,i)%Q + Q)%Q;
txtHash = (txtHash*R + charValue(txt,i+m))%Q;
if(patHash == txtHash)
if(check(i-m+1)) return i+1;
}
return n; //未找到
}
int main(){
printf("%d",solve());
return 0;
}
3.4 使用注意:与KMP比起来,这个算法理解起来简单一些(如果熟悉散列表的话),也有趣一些,但是该算法需要注意R的选取。如果仅仅匹配数字字符串,那么R大于10皆可,若包括各种字符,我们则需要为每个字符设定一个R进制的值(可以使用ASCII码),这时要求R要大于字符总数(否则有冲突)。相比之下KMP算法等其他算法则没这方面的缺陷。
参考资料:
《算法导论》原书第三版 P580
《算法》第四版 [Robert Sedgewick] P505