Rabin-Karp算法概述
关于Rabin-Karp算法
Rabin-Karp是用来解决字符串匹配(查重)的问题的。这个问题如下表达:
Input : 字符串p,和字符串q
Output:如果p中包含q,则输出True;如果p中不包含q,则输出False
时间复杂度:O(m+n)
关于字符串的比较以及hashing字符串
1.如果想要比较两个字符串是否相同,需要依次比较每个位置对应的字符是否相同,则时间复杂度为O(n)
2.如果我们将字符串以一个特定的函数H(·),将字符串转换成一个数字,那么我们只需要比较两个字符串的哈希值,就能够判断它们是否相同,时间复杂度为O(1)。
3.Hashing字符串一般用到如下公式:
其中,代表的是S的定义域大小,比如说如果S全是英文字母,那么的值为26,因为英文字母就只有26个。然后这个函数是一个映射函数,映射S的定义域中的每一个字符到数字的函数。
常规Brute Forch算法(暴力解法)
1. 假设字符串p的长度为m,字符串q的长度为n
2. 在字符串p上放一个长度为n的窗口,缓慢滑动这个窗口,每滑动一次就与字符串q比较一次
3. 当比较结果一致时返回True,若直到最后依然不一致,则返回False
分析:
1. 最坏情况下,窗口滑动至末尾,一共有(n-m+1)次滑动。-- O(m)
2. 每次滑动字符串都得进行比较。-- O(n)
3. 综上,时间复杂度为O(m*n)
Rabin-Karp算法
1. 基本思想与暴力解法一致,但比较的是两个字符串的哈希值。
2. 由于哈希值为数字,因此比较的时间复杂度为O(1)
3. 比较两个字符串的哈希值前需要先进行计算。若字符串q长度为n,则计算q的哈希值的时间为O(n)。接下来,就是这个算法的神奇之处了:
1)首先我们看一下字符串哈希值的计算公式:
2)若我们已经知道上一个窗口的哈希值时,则我们可以在此基础之上计算当前窗口的哈希值(减法-乘法-加法),原理如下:
3)因此,在已知上一个窗口的哈希值时,计算当前窗口的哈希值的时间复杂度为O(1)
4. 重新计算一次时间复杂度:
时间复杂度 = 窗口滑动的最坏情况x字符串比较时间+哈希值的计算时间=m+n