2011 年 6月 21 日随笔档案 - ljsspace

2011年6月21日

摘要： Boyer-Moore除了考虑Horspool算法（参考笔者的另一篇专门介绍Horspool算法的文章）的坏字符之外，还将模式串中已经匹配成功的后缀（叫做好后缀, good suffix）考虑进来，从而得到全部已经知道的启发信息(heuristic)。因此从理论上来说，BM算法应该是性能最佳的一个算法，实践中也证明了这一点。这也是为什么BM算法经常用作精确匹配算法里面的性能测试基准算法。例如，在通过下面的图示就可以看出, KMP算法由于没有考虑进来bad character信息，比较次数比BM算法稍多：（图一）上面在i=4，j=4时出现mismatch，在KMP算法中的做法是找出j-1右边阅读全文

posted @ 2011-06-21 16:45 ljsspace 阅读(834) 评论(0) 推荐(0) 编辑

KMP文本匹配算法

摘要： KMP（Knuth–Morris–Pratt）算法的发明时间几乎跟BM（Boyer-Moore）算法在同一时期，即上世纪70年代末（巧合的是随着互联网的发展对文本处理提出了更高的要求，从而最近几年字符处理又成了热门话题），二者在最坏情况下的时间复杂度都是O(n)。它与BM算法的主要区别是：1）在每次匹配中都是从左到右匹配，BM算法每一次匹配过程都是从模式串末尾开始匹配（指针从右到左移动），直到发现匹配失败字符(mismatch)才根据两张表（好后缀位移表-good suffix shift table和坏字符位移表-bad character shift table）决定向右移动一定的位置，因阅读全文

posted @ 2011-06-21 16:41 ljsspace 阅读(551) 评论(0) 推荐(0) 编辑

ljsspace

公告