德勒曼-温施算法

简介

德勒曼-温施算法(Needleman-Wunsch)算法，是一种对于字符串的模糊匹配算法。1970其由美国两位研究人员提出并最早应用于对基因序列的分析。值得一提的是，它也是历史上最早应用动态规划思想的算法之一。

算法描述

算法开始，对一个长度为M的字符串与另一个长度为N的字符串进行运算以求其编辑距离。首先，建立一个(M+2)*(N+2)的矩阵。并将第一个字符串填入第一列的后M空格(编号1到M-1),并将第二个字符串填入第一行的后N空格(编号1到N-1)。计第二行第二列处的值为0，并按照一定规则填满矩阵右下角的M行N列。

计算规则为：如果希望计算矩阵中[i] [j]点的值，且已设[0] [j]处的字符为A，[i] [0]处的字符为B。那么[i] [j]点的值是通过上方、左方、左上方三个方向计算结果取最大值。

左方和上方：如果从左方一格[i-1] [j]或者上方一格[i] [j-1]求取[i] [j]，这字符串中，就等价于在匹配过程中需要增加或者删去一个字符，需要对[i-1] [j]或者[i] [j-1]执行评分方案中的插入或删除分数改动。

从左上方：如果从左上方一格也就是[i-1] [j-1]的值求取[i] [j]的值，这代表不对字符串进行插入或者删除操作，而直接比较A与B。如果AB相等，则执行评分方案中的匹配分数改动，反之，执行不匹配分数改动。

依次迭代，最终填满右下角。而此时，矩阵最右下角的的一个元素就是这两个字符串的编辑距离。而如果我们希望知道这个编辑距离对应的编辑操作具体是什么，就通过这个方格一路回溯到起始的0点，回溯的路径就代表了编辑的操作。当然，路径往往不只一条。

需要提醒的有：首先，为什么要将矩阵设为(M+2)*(N+2)，在这里可以设想一下如果是对一个空字符串进行运算的情况；其次，在矩阵中，紧邻着两个字符串的空格没有办法通过三个方向求值，那么就使用仅有的一个方向进行填充就可以了。

算法举例

例1

设两个字符串分别为A=GGATCGA，B=GAATTCAGTTA。设定评分规则为：匹配+1，其余+0。

初始化矩阵

例1.1.png

填充矩阵

例1.2.png

回溯

例1.3.png

例2

设两个字符串分别为GATTACA 和GCATGCA。评分方案为，匹配+1，其他-1。

初始化矩阵

例2.1.png

填充及回溯

例2.2.png

最终回溯结果

例2.3.png

参考资料

1.算法之美——隐匿在数据结构背后的原理（C++版）左飞

2.https://www.cnblogs.com/houkai/p/3973207.html

posted @ 2020-08-31 14:57 wwtd5210 阅读(387) 评论(0) 编辑收藏举报

刷新页面返回顶部

wwtd5210

德勒曼-温施算法

德勒曼-温施算法

简介

相关概念

编辑距离

编辑距离的评分方案

算法描述

算法举例

例1

例2

参考资料

公告