Loading

UVA11107 Life Forms 后缀数组 求最长出现次数超过一半的子串

UVA11107 Life Forms 后缀数组 求最长出现次数超过一半的子串

题意

输入\(n\)个DNA序列,你的任务是求出一个长度最大的字符串,使得它在超过一半的DNA序列中连续出现。如果有多解,按照字典序从小到大输出

\[n \leq 100\\ |s| \leq 1000 \]

分析

首先用不同的分隔符把所有输入字符串(简称原串)拼起来,求这个新串的后缀数组和height数组,然后二分答案,即判断是否存在长度为\(p\)的串在超过一半的串中连续出现,判断方法是对height分组,扫描一遍height数组若包含超过\(n / 2\)个原串的后缀\(p\)就满足条件

判断时,需要\(belong\)数组用于标记这个串属于第几个串,以及一个\(vis\)数组标记这个串是否被访问

输出时,再扫描一遍即可

代码

int s[maxn];
int sa[maxn],t[maxn],t2[maxn],c[maxn],n;
int len;

void build_sa(int m){
	int *x = t,*y = t2;
	for(int i = 0;i < m;i++) c[i] = 0;
	for(int i = 0;i < len;i++) c[x[i] = s[i]]++;
	for(int i = 1;i < m;i++) c[i] += c[i -1];
	for(int i = len - 1;i >= 0;i--) sa[--c[x[i]]] = i;
	for(int k = 1;k <= len;k <<= 1){
		int p = 0;
		for(int i = len - k;i < len;i++) y[p++] = i;
		for(int i = 0;i < len;i++) if(sa[i] >= k) y[p++] = sa[i] - k;
		for(int i = 0;i < m;i++) c[i] = 0;
		for(int i = 0;i < len;i++) c[x[y[i]]]++;
		for(int i = 0;i < m;i++) c[i] += c[i - 1];
		for(int i = len - 1;i >= 0;i--) sa[--c[x[y[i]]]] = y[i];
		swap(x,y);
		p = 1;
		x[sa[0]] = 0;
		for(int i = 1;i < len;i++)
			x[sa[i]] = y[sa[i - 1]] == y[sa[i]] && y[sa[i] + k] == y[sa[i - 1] + k] ? p - 1:p++;
		if(p >= len) break;
		m = p;
	}
}

int rak[maxn],height[maxn];

void getHeight(){
	int k = 0;
	for(int i = 0;i < len;i++) rak[sa[i]] = i;
	for(int i = 0;i < len;i++){
		if(k) k--;
		int j = sa[rak[i] - 1];
		while(s[i + k] == s[j + k]) k++;
		height[rak[i]] = k;
	}
}

vector<int> ans;
int belong[maxn];

bool check(int p){
	int tot = 0;
	unordered_map<int,bool> mp;
	for(int i = 0;i < len;i++){
		if(height[i] >= p) {
			if(!mp[belong[sa[i]]])
			mp[belong[sa[i]]] = 1,tot++;
		}		
		else {
			mp.clear();
			tot = 0;
			if(!mp[belong[sa[i]]]) {
				mp[belong[sa[i]]] = 1;
				tot++;
			}
		}
		if(tot > n / 2) return true;
	}
	return false;
}

int solve(){
	int l = 0,r = len;
	while(l < r){
		int mid = l + r  + 1 >> 1;
		if(check(mid)) l = mid ;
		else r = mid - 1;
	}
	return l;
}

int main(){
	bool flag = true;
	while(scanf("%d",&n) && n){
		if(!flag) puts("");
		else flag = false;
		ans.clear();
		int cnt = 0;
		int now = 30;
		for(int i = 0;i < n;i++){
			char tmp[1005];
			scanf("%s",tmp);
			int l = strlen(tmp);
			for(int j = 0;j < l;j++){
				s[j + cnt] = tmp[j] - 'a' + 1;
				belong[j + cnt] = i;
			}
			s[l + cnt] = now++;
			belong[l + cnt] = i + 1;
			cnt += l + 1;
		}
		s[cnt] = 0;
		belong[cnt] = n;
		len = cnt + 1;
		build_sa(200);
		getHeight();
		int ans = solve();	
		if(!ans) {
			puts("?");
			continue;
		}
		{
		int tot = 0;
		unordered_map<int,bool> mp;
		for(int i = 0;i < len;i++){
			if(height[i] >= ans) {
				if(!mp[belong[sa[i]]])
				mp[belong[sa[i]]] = 1,tot++;
			}		
			else {
				if(tot > n / 2) {
					int cur = sa[i - 1];
					for(int i = cur;i < cur + ans;i++)
						printf("%c",(char)(s[i] + 'a' - 1));
					puts("");
				}
				mp.clear();
				tot = 0;
				if(!mp[belong[sa[i]]]) {
					mp[belong[sa[i]]] = 1;
					tot++;
				}				
			}
			
		}
		if(tot > n / 2) {
			for(int i = sa[n - 1];i < sa[n - 1] + ans;i++)
				printf("%c",(char)(s[i] + 'a' - 1));
			puts("");
		}	
		}
	}	
}
posted @ 2020-11-29 21:16  MQFLLY  阅读(138)  评论(0编辑  收藏  举报