最长公共子序列、最长公共子串和最长递增子序列

2015-02-24 16:28 李涛的技术博客阅读(332) 评论(0) 编辑收藏举报

1、最长公共子序列：（x和y是两个数组的长度）

f(x,y) = 0 if(x==0 || y==0)

f(x-1,y-1)+1 if(A[x-1]==B[y-1])

max{f(x-1,y), f(x,y-1)} if(A[x-1]!=B[y-1])

空间复杂度可以优化到O(min(m,n))。

2、最长公共子串：

f(x,y) = 0 if (x==0 || y==0 || A[x-1]!=B[y-1])

f(x-1,y-1)+1 if (A[x-1]==B[y-1])

3、最长递增子序列

(1) 最长公共子序列法：排序后与原数组的最长公共子序列。

(2) 动态规划法：（时间复杂度O(N^2)）

设长度为N的数组为{a0，a1, a2, ...an-1)，则假定以aj结尾的数组序列的最长递增子序列长度为L(j)，则L(j)={ max{1,L(i)+1}, i<j且a[i]<a[j] }。也就是说，我们需要遍历在j之前的所有位置i(从0到j-1)，找出满足条件a[i]<a[j]的L(i)，求出max(L(i))+1即为L(j)的值。最后，我们遍历所有的L(j)（从0到N-1），找出最大值即为最大递增子序列。时间复杂度为O(N^2)。
例如给定的数组为{5，6，7，1，2，8}，则L(0)=1, L(1)=2, L(2)=3, L(3)=1, L(4)=2, L(5)=4。所以该数组最长递增子序列长度为4，序列为{5，6，7，8}。算法代码如下：

int lis(int arr[], int len)
{
    int longest[len];
    for (int j = 1; j < len; j++)
    {
　　     longest[i] = 1;
        for (int i = 0; i < j; i++)
        {
            if (arr[j] > arr[i] && longest[j] < longest[i] + 1)
            {
                longest[j] = longest[i] + 1;
            }
        }
    }

    int max = 0;
    for (int i = 0; i < len; i++)
    {
        if (longest[i] > max)
            max = longest[i];
    }
    return max;
}

(3) O(NlgN）算法

假设存在一个序列d[1..9] ={ 2，1 ，5 ，3 ，6，4， 8 ，9， 7}，可以看出来它的LIS长度为5。
下面一步一步试着找出它。
我们定义一个序列B，然后令 i = 1 to 9 逐个考察这个序列。
此外，我们用一个变量Len来记录现在最长算到多少了

首先，把d[1]有序地放到B里，令B[1] = 2，就是说当只有1一个数字2的时候，长度为1的LIS的最小末尾是2。这时Len=1

然后，把d[2]有序地放到B里，令B[1] = 1，就是说长度为1的LIS的最小末尾是1，d[1]=2已经没用了，很容易理解吧。这时Len=1

接着，d[3] = 5，d[3]>B[1]，所以令B[1+1]=B[2]=d[3]=5，就是说长度为2的LIS的最小末尾是5，很容易理解吧。这时候B[1..2] = 1, 5，Len＝2

再来，d[4] = 3，它正好加在1,5之间，放在1的位置显然不合适，因为1小于3，长度为1的LIS最小末尾应该是1，这样很容易推知，长度为2的LIS最小末尾是3，于是可以把5淘汰掉，这时候B[1..2] = 1, 3，Len = 2

继续，d[5] = 6，它在3后面，因为B[2] = 3, 而6在3后面，于是很容易可以推知B[3] = 6, 这时B[1..3] = 1, 3, 6，还是很容易理解吧？ Len = 3 了噢。

第6个, d[6] = 4，你看它在3和6之间，于是我们就可以把6替换掉，得到B[3] = 4。B[1..3] = 1, 3, 4， Len继续等于3

第7个, d[7] = 8，它很大，比4大，嗯。于是B[4] = 8。Len变成4了

第8个, d[8] = 9，得到B[5] = 9，嗯。Len继续增大，到5了。

最后一个, d[9] = 7，它在B[3] = 4和B[4] = 8之间，所以我们知道，最新的B[4] =7，B[1..5] = 1, 3, 4, 7, 9，Len = 5。

于是我们知道了LIS的长度为5。

注意，这个1,3,4,7,9不是LIS，它只是存储的对应长度LIS的最小末尾。有了这个末尾，我们就可以一个一个地插入数据。虽然最后一个d[9] = 7更新进去对于这组数据没有什么意义，但是如果后面再出现两个数字 8 和 9，那么就可以把8更新到d[5], 9更新到d[6]，得出LIS的长度为6。

然后应该发现一件事情了：在B中插入数据是有序的，而且是进行替换而不需要挪动——也就是说，我们可以使用二分查找，将每一个数字的插入时间优化到O(logN)~~~~~于是算法的时间复杂度就降低到了O(NlogN)～！
代码如下（代码中的数组B从位置0开始存数据）：

int LIS(int arr[], int n)
{
    B[0] = arr[0];
    int len = 1;
    for (int i = 0; i < n; i++)
    {
        if (arr[i] > B[len-1])
        {
            B[len] = arr[i];
            len++;
        }
        else
        {
            int pos = bsearch(B, len, array[i]);
            B[pos] = array[i];
        }
    }
    return len;
}

int bsearch(int b[], int len, int w)
{
    int left = 0;
    int right = len - 1;
    while (left <= right)
    {
        int pos = left + (right-left)/2;
        if (b[pos] > w)
            right = pos - 1;
        else if (b[pos] < w)
            left = pos + 1;
        else
            return pos;
    }
    return left;
}

刷新页面返回顶部

李涛的技术博客

最长公共子序列、最长公共子串和最长递增子序列

About