数据结构与算法(十八):BF/RK字符串匹配算法

编程语言提供的字符串查找函数,它们的底层就是依赖的字符串匹配算法。

BF算法

BF 算法中的 BF 是 Brute Force 的缩写,中文叫作暴力匹配算法,也叫朴素匹配算法。从名字可以看出,这种算法的字符串匹配方式很“暴力”,当然也就会比较简单、好懂,但相应的性能也不高。它的主要思想是在主串中,检查起始位置分别是 0、1、2....n-m 且长度为 m 的 n-m+1 个子串,看有没有跟模式串匹配的,时间复杂度是 O(n*m)。但在实际的开发中,它却是一个比较常用的字符串匹配算法。为什么这么说呢?原因有两点。

  • 第一,实际的软件开发中,大部分情况下,模式串和主串的长度都不会太长。而且每次模式串与主串中的子串匹配的时候,当中途遇到不能匹配的字符的时候,就可以就停止了,不需要把 m 个字符都比对一下。所以,尽管理论上的最坏情况时间复杂度是 O(n*m),但是,统计意义上,大部分情况下,算法执行效率要比这个高很多。
  • 第二,朴素字符串匹配算法思想简单,代码实现也非常简单。简单意味着不容易出错,如果有 bug 也容易暴露和修复。在工程中,在满足性能要求的前提下,简单是首选。这也是我们常说的KISS(Keep it Simple and Stupid)设计原则。

代码实现如下:

public class StringMatch
{
        public static bool ContainsByBK(string mainStr, string patternStr)
        {
            if (string.IsNullOrWhiteSpace(mainStr) || string.IsNullOrWhiteSpace(patternStr)) throw new Exception("mainstr or patternStr is null");
            if (mainStr.Length < patternStr.Length) return false;
            for (int i = 0; i < mainStr.Length - patternStr.Length + 1; i++)
            {
                for (int j = 0; j < patternStr.Length; j++)
                {
                    if (patternStr[j] != mainStr[i + j]) break;

                    if (j == patternStr.Length - 1) return true;
                }
            }
            return false;
        }
}

RK算法

RK 算法的全称叫 Rabin-Karp 算法,它是借助哈希算法对 BF 算法进行改造,即对每个子串分别求哈希值,然后拿子串的哈希值与模式串的哈希值比较,减少了比较的时间。所以,理想情况下,RK 算法的时间复杂度是 O(n),跟 BF 算法相比,效率提高了很多。不过这样的效率取决于哈希算法的设计方法,如果存在冲突的情况下,时间复杂度可能会退化。极端情况下,哈希算法大量冲突,时间复杂度就退化为 O(n*m)

posted @ 2023-02-27 17:35  唐磊(Jason)  阅读(68)  评论(0编辑  收藏  举报