最长公共子序列
最长公共子序列(Longest Common Sequence,LCS)问题是典型的适用于动态规划求解的问题。LCS的定义是:
给定一个串,以及另外一个串,如果存在一个单调增的序列,对于所有,有,则称是的一个子序列。如果对于两个串,,既是的子序列,又是的子序列,那么就称是与的公共子序列,LCS就是指所有子序列中最长的那个子序列(可能有多个)。
使用动态规划求解LCS时,首先我们需要找出递推公式。令,,并设为它们的LCS。我们可以看到:
(1)如果,并且,那么是与的LCS;
(2)如果,并且,那么是与的LCS;
(3)如果,并且,那么是与的LCS;
上述3个性质不再证明,读者如果有兴趣,可以阅读算法导论的相关内容。根据上述3个性质,我们可以很容易地写出递推公式。设m[i,j]为串与的LCS的长度,则
我使用了C++进行了实现,包括了自底向上的构建方法(solve函数)与自顶向下的递归方法(solve1函数)。m数组记录了LCS的长度,b数组则记录了LCS的路径,其中b[i,j]为1,表示(1)的情形,b[i,j]为2表示(2)的情形,b[i,j]为3表示(3)的情形。但是只有当b[i,j]为1时才产生结果输出,这是因为此时与才属于LCS。两种求解方法的时间复杂度都为。
1 #include <cstdio> 2 #include <cstring> 3 4 #define MAX_LENGTH 100 5 int m[MAX_LENGTH][MAX_LENGTH]; 6 int b[MAX_LENGTH][MAX_LENGTH]; 7 8 char str1[MAX_LENGTH]; 9 char str2[MAX_LENGTH]; 10 int length1; 11 int length2; 12 void print(int a,int c) 13 { 14 if(a==0||c==0) return ; 15 else if(b[a][c]==1) 16 { 17 print(a-1,c-1); 18 printf("%d %d\n",a-1,c-1); 19 } 20 else if(b[a][c]==2) 21 print(a-1,c); 22 else if(b[a][c]==3) 23 print(a,c-1); 24 /* 25 if(a==0||c==0) return ; 26 else if(str1[a-1]==str2[c-1]) 27 { 28 print(a-1,c-1); 29 printf("%d %d\n",a-1,c-1); 30 } 31 else if(m[a][c]==m[a-1][c]) 32 print(a-1,c); 33 else if(m[a][c]==m[a][c-1]) 34 print(a,c-1); 35 */ 36 } 37 void solve() 38 { 39 int i,j,k; 40 for(i=0;i<=length1;i++) 41 { 42 for(j=0;j<=length2;j++) 43 { 44 if(i==0||j==0) continue; 45 if(str1[i-1]==str2[j-1]) 46 { 47 m[i][j]=m[i-1][j-1]+1; 48 b[i][j]=1; 49 } 50 else 51 { 52 if(m[i-1][j]>=m[i][j-1]) 53 { 54 m[i][j]=m[i-1][j]; 55 b[i][j]=2; 56 } 57 else 58 { 59 m[i][j]=m[i][j-1]; 60 b[i][j]=3; 61 } 62 } 63 } 64 } 65 printf("%d\n",m[length1][length2]); 66 print(length1,length2); 67 } 68 69 int solve1(int a,int c) 70 { 71 72 if(m[a][c]!=-1) return m[a][c]; 73 74 if(a==0||c==0) 75 { 76 m[a][c]=0; 77 return m[a][c]; 78 } 79 80 if(str1[a-1]==str2[c-1]) 81 { 82 m[a][c]=solve1(a-1,c-1)+1; 83 b[a][c]=1; 84 } 85 else 86 { 87 if(solve1(a-1,c)>=solve1(a,c-1)) 88 { 89 m[a][c]=solve1(a-1,c); 90 b[a][c]=2; 91 } 92 else 93 { 94 b[a][c]=3; 95 m[a][c]=solve1(a,c-1); 96 } 97 } 98 return m[a][c]; 99 } 100 101 int main(void) 102 { 103 freopen("data.in","r",stdin); 104 scanf("%s",str1); 105 scanf("%s",str2); 106 length1=strlen(str1); 107 length2=strlen(str2); 108 // solve(); 109 int i,j; 110 for(i=0;i<=length1;i++) 111 { 112 for(j=0;j<=length2;j++) 113 m[i][j]=-1; 114 } 115 solve1(length1,length2); 116 printf("%d\n",m[length1][length2]); 117 print(length1,length2); 118 return 0; 119 }
当然,在实现的过程中,我们如果要输出结果,不要b数组也是可以的,在print函数中,被注释掉的内容,就没有利用b数组,而是直接使用m数组中的结果进行LCS的构建工作。这样在增加了些许时间复杂度的情况下,将空间复杂度降低了一半。
同时,如果我们只关心LCS的长度,那么空间复杂度可以再次降低,至多要的空间即可。我们观察递推公式,可以看到,m[i,j]的求解最多只与m[i-1,j-1],m[i-1,j]与m[i,j-1]相关联。当我们使用自底向上(solve函数)的方法求解时,我们甚至可以只用个空间的数组b来保存计算结果,用1个空间来保存m[i-1,j-1]。这是由于,当我们计算m[i,j]时,m[i-1,j-1]所在的位置(b[j-1])已经被本行结果(m[i,j-1])所覆盖,而计算所需的m[i,j-1]在b[j-1]的位置上,并且刚刚被计算出来,m[i-1,j]在计算结果写入b[j]之前,存在于b[j]。
另外的个空间用来存放较短的那个串。基本原理就是这样,我没有写程序实现,有兴趣的读者可以自己写动手写一下。
最长递增子序列
我们接下来考虑另外一个相似的问题,对于一组数字序列,以相同的方法定义子序列,如果这个序列中的数字是单调递增的,则称为递增子序列。我们所要求的就是最长的递增子序列。设串为一个数字串,如果使用暴力搜索求最长递增子序列,时间复杂度为,显然不可行。求解此问题,关键在于如何找出递推式。
我们可以发现一个明显的关系,设c[i]为串并且包含了的最长递增子序列的长度。设一个串为{8,9,10,1,2},那么c[1]=1,c[2]=2,c[3]=3,c[4]=1,c[5]=2。我们可以很方便地得出递推关系:
通过该递归式,我们可以求出所有的c[i],最后遍历一遍c,从中找出最长的递增子序列即可,或者直接在求c[i]的过程中保存当前求出的最长递增子序列,当结束的时候,当前最长递增子序列就变成了全局最长递增子序列。该算法的时间复杂度为,当我们需要得到最长递增子序列的内容时,需要另外一个数组d来跟踪最长递增子序列。d[i]中记录的是c[i]那个递增子序列的前一个数。使用递归的方法就可以得到递增子序列。
#include <cstdio> #define MAX_LENGTH 100 int N; int c[MAX_LENGTH],d[MAX_LENGTH],num[MAX_LENGTH]; void print(int pos) { if(d[pos]!=pos) { print(d[pos]); } printf("%d ",pos); } void solve() { int i,j,max=0,maxpos=0; for(i=0;i<N;i++) { if(i==0) { c[i]=1; max=1; maxpos=0; d[i]=i; } else { bool flag=false; int tempmax=0; int tempmaxpos=0; for(j=0;j<i;j++) { if(num[j]<num[i]) { if(c[j]+1>tempmax) { tempmax=c[j]+1; tempmaxpos=j; } flag=true; } } if(flag==true) { c[i]=tempmax; d[i]=tempmaxpos; } else { c[i]=1; d[i]=i; } if(c[i]>max) { max=c[i]; maxpos=i; } } } printf("max:%d\n",max); printf("path:\n"); print(maxpos); printf("\n"); } int main(void) { scanf("%d",&N); int i,j; for(i=0;i<N;i++) { scanf("%d",&num[i]); //-1标示还没有得到结果 //c[i]=-1; //d[i]=-1; } solve(); return 0; }
如果我们只关心最长递增子序列的长度,我们可以以更快的速度求解。此时,我们需要一个最长为m的数组。我先阐述一个较为不严谨的原理:对于序列中的某一个数,我们期望它能够成为最长递增子序列一个时,我们就必须使当前最长递增子序列中的最大的数尽可能的小。单纯地讲理论无法理解这种思想,并且我也没有信心能够讲好。因此,下面我将就一个例子阐述这种思路。
示例
串X={5,6,9,2,3,1,4,6,7,8},当前最长递增子序列的长度max_length=0
Step 1:读取5,将5加入m,此时m数组为空,直接加入即可:
m:5;max_length=1
Step 2:读取6,将6加入m,覆盖位置为仅小于6的数之后的那个数:
m:5,6;max_length=2
Step 3:读取9,将9加入m,覆盖位置为仅小于9的数之后的那个数:
m:5,6,9;max_length=3
Step 4:读取2,将2加入m,覆盖位置为仅小于2的数之后的那个数,注意数组中的数都比2大,那么就将直接覆盖掉5:
m:2,6,9;max_length=3
Step 5:读取3,将3加入m,覆盖位置为仅小于3的数之后的那个数:
m:2,3,9;max_length=3
注意Step 4和Step 5的步骤,覆盖掉了m的前两项,这样就破坏了最长递增子序列的内容,但其长度仍然保留下来。
Step 6:读取1,将1加入m,覆盖位置为仅小于1的数之后的那个数:
m:1,3,9;max_length=3
Step 7:读取4,将4加入m,覆盖位置为仅小于4的数之后的那个数:
m:1,3,4;max_length=3
Step 8:读取6,将6加入m,覆盖位置为仅小于6的数之后的那个数:
m:1,3,4,6;max_length=4
此时最长的递增子序列为2,3,4,6。数组中并没有保留递增子串的内容,只是维护了递增子序列的长度。
Step 9:读取7,将7加入m,覆盖位置为仅小于7的数之后的那个数:
m:1,3,4,6,7;max_length=5
Step 10:读取8,将8加入m,覆盖位置为仅小于8的数之后的那个数:
m:1,3,4,6,7,8;max_length=6
经过以上各个步骤,我们得到了max_length为6。在计算过程中,我们对于序列中的每一个数都进行了处理,将其插入到数组m适当的位置上,这个插入过程的定位使用二分法定位,复杂度为,m个数的复杂度就为。
End:由于写作仓促,可能会存在错误,欢迎交流。
作者:Chenny Chen
出处:http://www.cnblogs.com/XjChenny/
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。