Loading

1018. 【AHOI2006】基因匹配

Description

卡卡昨天晚上做梦梦见他和可可来到了另外一个星球,这个星球上生物的DNA序列由无数种碱基排列而成(地球上只有4种),而更奇怪的是,组成DNA序列的每一种碱基在该序列中正好出现5次!这样如果一个DNA序列有N种不同的碱基构成,那么它的长度一定是5N。
卡卡醒来后向可可叙述了这个奇怪的梦,而可可这些日子正在研究生物信息学中的基因匹配问题,于是他决定为这个奇怪星球上的生物写一个简单的DNA匹配程序。

为了描述基因匹配的原理,我们需要先定义子序列的概念:若从一个DNA序列(字符串)s中任意抽取一些碱基(字符),将它们仍按在s中的顺序排列成一个新串u,则称u是s的一个子序列。对于两个DNA序列s1和s2,如果存在一个序列u同时成为s1和s2的子序列,则称u是s1和s2的公共子序列。
卡卡已知两个DNA序列s1和s2,求s1和s2的最大匹配就是指s1和s2最长公共子序列的长度。

编写一个程序:

  1. 从输入文件中读入两个等长的DNA序列;
  2. 计算它们的最大匹配;
  3. 向输出文件打印你得到的结果。

Solution

注意到每个数字刚好出现 5 次,因此每个位置可以匹配的只有 5 个位置。

所以可以先 \(\mathcal O(n)\) 找出每个数可以匹配的位置,然后组合成长度为 \(25n\) 的序列,求个最长上升子序列即可。但为了不让一个数被重复,所以组合时对于每个数字需要从大到小加入可匹配的位置。

问题在于怎么求最长上升子序列。一般的求法是 \(\mathcal O(n^2)\),是过不了这道题的。

考虑优化至 \(\mathcal O(n\log n)\)。这个方法网上有很多讲解,这里讲一下我的想法。

维护的是最长上升子序列, 那么考虑什么情况可以更新最长上升子序列,显然是当前数大于当前序列的末尾。但如果小于等于末尾,就说明这个数可能会对答案进行影响。

那么我们二分找到序列中第一个小于当前数的位置,并且从那之后可以开创一个新的分支,记录以当前数为末尾的子序列。

具体来说,设 \(f_i\) 表示长度为 \(i\) 的上升子序列末尾的数是什么,如果当前数 \(x\) 大于 \(f_{len}\)\(len\) 为最长上升子序列的长度),那么直接加进来即可。

但如果当前数小于等于 \(f_{len}\),就找出 \(f\) 中第一个 \(i\) 使得 \(f_i<x\),然后 \(f_{i+1}=x\),因为长度为 \(i+1\) 的结尾选 \(x\) 会更优,因为具有更大的空间。

Code

#include<cstdio>
#define N 20005
int n,num,len,a[N*5],b[N*5],q[N*30],c[N][10],d[N*30];
using namespace std;
int two_point(int l,int r,int x)
{
	int mid=0,res=0;
	while (l<=r)
	{
		mid=(l+r)>>1;
		if (d[mid]<x) res=mid,l=mid+1;
		else r=mid-1;
	}
	return res;
}
int main()
{
	scanf("%d",&n);
	for (int i=1;i<=5*n;++i)
		scanf("%d",&a[i]);
	for (int i=1;i<=5*n;++i)
	{
		scanf("%d",&b[i]);	
		c[b[i]][++c[b[i]][0]]=i;
	}
	for (int i=1;i<=5*n;++i)
	{
		for (int j=1;j<=c[a[i]][0];++j)
			q[++num]=c[a[i]][c[a[i]][0]-j+1];
	}
	d[len=1]=q[1];
	for (int i=2;i<=num;++i)
	{
		if (q[i]>d[len]) d[++len]=q[i];
		else
		{
			int p=two_point(1,len,q[i]);
			d[p+1]=q[i];
		}
	}
	printf("%d\n",len);
	return 0;
}
posted @ 2022-04-11 20:02  Thunder_S  阅读(50)  评论(0编辑  收藏  举报