Rabin-Karp算法概述

关于Rabin-Karp算法

Rabin-Karp是用来解决字符串匹配(查重)的问题的。这个问题如下表达:

Input : 字符串p,和字符串q

Output:如果p中包含q,则输出True;如果p中不包含q,则输出False

时间复杂度:O(m+n)

 

关于字符串的比较以及hashing字符串

1.如果想要比较两个字符串是否相同,需要依次比较每个位置对应的字符是否相同,则时间复杂度为O(n)

2.如果我们将字符串以一个特定的函数H(·),将字符串转换成一个数字,那么我们只需要比较两个字符串的哈希值,就能够判断它们是否相同,时间复杂度为O(1)

3.Hashing字符串一般用到如下公式:

 

其中,代表的是S的定义域大小,比如说如果S全是英文字母,那么的值为26,因为英文字母就只有26个。然后这个函数是一个映射函数,映射S的定义域中的每一个字符到数字的函数。

 

常规Brute Forch算法(暴力解法)

 

1. 假设字符串p的长度为m,字符串q的长度为n

2. 在字符串p上放一个长度为n的窗口,缓慢滑动这个窗口,每滑动一次就与字符串q比较一次

3. 当比较结果一致时返回True,若直到最后依然不一致,则返回False

分析:

  1. 最坏情况下,窗口滑动至末尾,一共有(n-m+1)次滑动。-- O(m)

  2. 每次滑动字符串都得进行比较。-- O(n)

  3. 综上,时间复杂度为O(m*n)

 

Rabin-Karp算法

1. 基本思想与暴力解法一致,但比较的是两个字符串的哈希值。

2. 由于哈希值为数字,因此比较的时间复杂度为O(1)

3. 比较两个字符串的哈希值前需要先进行计算。若字符串q长度为n,则计算q的哈希值的时间为O(n)。接下来,就是这个算法的神奇之处了:

  1)首先我们看一下字符串哈希值的计算公式:

 

  2)若我们已经知道上一个窗口的哈希值时,则我们可以在此基础之上计算当前窗口的哈希值(减法-乘法-加法),原理如下:

 

  3)因此,在已知上一个窗口的哈希值时,计算当前窗口的哈希值的时间复杂度为O(1)

 4. 重新计算一次时间复杂度:

  时间复杂度 = 窗口滑动的最坏情况x字符串比较时间+哈希值的计算时间=m+n

 

posted @ 2020-09-28 23:54  ChristianL  阅读(1650)  评论(0编辑  收藏  举报