数据结构实验病毒感染检测问题(C++)
医学研究者最近发现了某些新病毒,通过对这些病毒的分析,得知他们的DNA序列都是环状的。现在研究者已收集了大量的病毒DNA和人的DNA数据,想快速检测出这些人是否感染了相应的病毒。为了方便研究,研究者将人的DNA和病毒DNA均表示成由一些字母组成的字符串序列,然后检测某种病毒DNA序列是否在患者的DNA序列中出现过,如果出现过,这此人感染了该病毒,否则没有感染。例如,假设病毒的DNA序列为baa,患者1的DNA序列为aaabbba,则感染。患者2的DNA序列为babbba,则未感染。(注意:人的DNA序列是线性的,而病毒的DNA序列是环状的)。
研究者将待检测的数据保存在一个文本文件中,文件格式和内容规定如下:文件有num+1行,第一行有一个整数num,表示有num个待检测的任务(num<=300)。接下来每行i(2<=i<=num+1)对应一个任务,每行有两个数据,用空格分隔,第一个数据表示病毒的DNA序列(长度<=6000),第二个数据表示人的DNA序列(长度<=10000)。
要求将检测结果输出到文件中,文件中包括num行,每行有三个数据,用空格分隔,前两个数据分别表示输入文件中对应病毒的DNA序列和人的DNA序列,如果该人感染了对应的病毒,该行第三个数据则为“YES”,否则为“NO”。
思路:我直接采用的kmp算法,这能有效改善时间复杂度。考虑到病毒基因是环状的,所以弄了个循环来更新匹配数组的值,设置一个标记,用来判断是否匹配。注意要将匹配串清零,以防出错。
注意:有些让用BF来写,本文不再给出代码,可以参考代码写出一个BF函数即可。
#include <iostream>
#include<cstring>
#include<cstdio>
using namespace std;
char str[12005],pat[12005],pat1[12005];//pat为模式串,str为主串
int Next[12005]; //Next[x]下标x表示匹配失败处字符下标
//模式串pat的前缀与x位置的后缀的最大匹配字符个数-1
void GetNext(char *pat)
{
int LenPat = strlen(pat);
int i = 0,j = -1;
Next[0] = -1;
while(i < LenPat)
{
if(j == -1 || pat[i] == pat[j])
{
i++,j++;
Next[i] = j;
}
else
j = Next[j];
}
}
int KMP()
{
int LenStr = strlen(str);
int LenPat = strlen(pat);
GetNext(pat);
int i = 0,j = 0;
while(i < LenStr)
{
if(j == -1 || str[i] == pat[j])
i++,j++;
else
j = Next[j];
if(j == LenPat)
return 1;
}
return -1;//没找到匹配位置
}
int main()
{
//freopen("输入文件夹名字","r",stdin); 从文件读取数据
//freopen("输出文件夹名字","w",stdout); 输出重定向
int n;
scanf("%d",&n);
while(n--)
{
scanf("%s%s",pat1,str);
char s[6005];
memset(pat,'\0',sizeof(pat));//每次将pat数组清零
bool flag=false;
strcpy(s,pat1);
int len = strlen(s);
strcat(pat1,s);
for(int i=0;i<=len;++i)
{
for(int j=0;j<len;++j)
{
pat[j]=pat1[i+j];
}
//memcpy(pat,pat1+i,len);
if(KMP()==1)
{
printf("Yes\n");
flag=true;
break;
}
}
if(!flag)
printf("No\n");
}
return 0;
}
结果检测