【NLP】最小编辑距离最简明的解释方法
网上讲最小编辑距离的文章有很多,但是看了一大堆,讲明白的实在是很少。
最小编辑距离指的是字符串A转化为字符串B的最小编辑次数,允许的操作有插入,删除,替换。
先来说一下插入删除操作,比如有hello,helo俩个字符串,前一个字符串减去一个l和后一个加上一个l,其实是没有区别的。那么把这个操作统称为对一个字符串的删除就好了。
再来说一下替换操作,helo和halo,将e替换成a或者将a替换成e,其实都是没区别的。
既然如此,那么大家都在说dp做最小编辑距离,那怎么理解呢。先上图。
首先先说黑字部分。
首先一点是,如果双方字符串为空,那么最小编辑距离为0。如果有任意一方字符串不为空,那么最小编辑距离就为len(str(not_None_string)),这也是没问题的。
那么红字部分怎么来的呢,dp的一个特性就是当前状态由上一个状态决定。那么假设我要判断A[i:]和B[j:]的最小编辑距离,那么当前编辑距离是由上一个状态的最小编辑距离决定,也就是说在上一个状态需要修改最少多少次。上一个状态是有这么几种情况:
1.A[i-1:]与B[j]匹配需要修改K1次,如果此时加上了A[i],那么就不匹配了,需要把A[i]去掉,操作数K1+1
2.同理,A[i:]与B[j-1:]匹配需要修改K2次,如果此时加上了B[j],那么就不匹配了,需要把B[j]去掉,操作数K2+1
3.A[i-1:]与B[j-1:]匹配需要修改K3次,那么此时双方各加上A[i],B[j],就要考虑了,如果俩个字符相同,那么操作数K3不变,如果字符不同,那么意味着要进行替换操作,不管谁替换谁都是K3+1
那么现在的状态就是上面三种情况取(K1+1,K2+1,K3+(0?1))最小的那个,换成矩阵中的状态转移方程为:
dp[i,j] = min(dp[i-1,j]+1,dp[i,j-1]+1,dp[i-1,j-1]+(0:1?A[i]==B[j]))
为什么要从0开始,因为从空字符串开始会更好算一点,黑框这些值不由dp状态生成,可以看成辅助计算的数组们。这个做法在很多需要二维矩阵的dp解法中都会运用到。多拿几道题练几遍就有思路了。
那么代码如下:
def func(s1,s2): edit = [[i+j for j in range(len(s2)+1)] for i in range(len(s1)+1)] for i in range(1,len(s1)+1): for j in range(1,len(s2)+1): if s1[i-1]==s2[j-1]: d=0 else: d=1 edit[i][j] = min(edit[i-1][j]+1,edit[i][j-1]+1,edit[i-1][j-1]+d) return edit[-1][-1]
其实这种解体思路也可以用在求一些二维的最短路径上,只不过生成的黑框不一样,解法还是一样的。