1018. 【AHOI2006】基因匹配

Description

卡卡昨天晚上做梦梦见他和可可来到了另外一个星球，这个星球上生物的DNA序列由无数种碱基排列而成（地球上只有4种），而更奇怪的是，组成DNA序列的每一种碱基在该序列中正好出现5次！这样如果一个DNA序列有N种不同的碱基构成，那么它的长度一定是5N。
卡卡醒来后向可可叙述了这个奇怪的梦，而可可这些日子正在研究生物信息学中的基因匹配问题，于是他决定为这个奇怪星球上的生物写一个简单的DNA匹配程序。

为了描述基因匹配的原理，我们需要先定义子序列的概念：若从一个DNA序列（字符串）s中任意抽取一些碱基（字符），将它们仍按在s中的顺序排列成一个新串u，则称u是s的一个子序列。对于两个DNA序列s1和s2，如果存在一个序列u同时成为s1和s2的子序列，则称u是s1和s2的公共子序列。
卡卡已知两个DNA序列s1和s2，求s1和s2的最大匹配就是指s1和s2最长公共子序列的长度。

编写一个程序：

从输入文件中读入两个等长的DNA序列；
计算它们的最大匹配；
向输出文件打印你得到的结果。

Solution

注意到每个数字刚好出现 5 次，因此每个位置可以匹配的只有 5 个位置。

所以可以先 \(\mathcal O(n)\) 找出每个数可以匹配的位置，然后组合成长度为 \(25n\) 的序列，求个最长上升子序列即可。但为了不让一个数被重复，所以组合时对于每个数字需要从大到小加入可匹配的位置。

问题在于怎么求最长上升子序列。一般的求法是 \(\mathcal O(n^2)\)，是过不了这道题的。

考虑优化至 \(\mathcal O(n\log n)\)。这个方法网上有很多讲解，这里讲一下我的想法。

维护的是最长上升子序列，那么考虑什么情况可以更新最长上升子序列，显然是当前数大于当前序列的末尾。但如果小于等于末尾，就说明这个数可能会对答案进行影响。

那么我们二分找到序列中第一个小于当前数的位置，并且从那之后可以开创一个新的分支，记录以当前数为末尾的子序列。

具体来说，设 \(f_i\) 表示长度为 \(i\) 的上升子序列末尾的数是什么，如果当前数 \(x\) 大于 \(f_{len}\)（\(len\) 为最长上升子序列的长度），那么直接加进来即可。

但如果当前数小于等于 \(f_{len}\)，就找出 \(f\) 中第一个 \(i\) 使得 \(f_i<x\)，然后 \(f_{i+1}=x\)，因为长度为 \(i+1\) 的结尾选 \(x\) 会更优，因为具有更大的空间。

Code

#include<cstdio>
#define N 20005
int n,num,len,a[N*5],b[N*5],q[N*30],c[N][10],d[N*30];
using namespace std;
int two_point(int l,int r,int x)
{
	int mid=0,res=0;
	while (l<=r)
	{
		mid=(l+r)>>1;
		if (d[mid]<x) res=mid,l=mid+1;
		else r=mid-1;
	}
	return res;
}
int main()
{
	scanf("%d",&n);
	for (int i=1;i<=5*n;++i)
		scanf("%d",&a[i]);
	for (int i=1;i<=5*n;++i)
	{
		scanf("%d",&b[i]);	
		c[b[i]][++c[b[i]][0]]=i;
	}
	for (int i=1;i<=5*n;++i)
	{
		for (int j=1;j<=c[a[i]][0];++j)
			q[++num]=c[a[i]][c[a[i]][0]-j+1];
	}
	d[len=1]=q[1];
	for (int i=2;i<=num;++i)
	{
		if (q[i]>d[len]) d[++len]=q[i];
		else
		{
			int p=two_point(1,len,q[i]);
			d[p+1]=q[i];
		}
	}
	printf("%d\n",len);
	return 0;
}

posted @ 2022-04-11 20:02 Thunder_S 阅读(50) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

Loading

Thunder_S

春有百花秋有月,夏有凉风冬有雪。若无闲事挂心头,便是人间好时节。

1018. 【AHOI2006】基因匹配

Description

Solution

Code

公告