UVA11107 Life Forms 后缀数组 求最长出现次数超过一半的子串
UVA11107 Life Forms 后缀数组 求最长出现次数超过一半的子串
题意
输入\(n\)个DNA序列,你的任务是求出一个长度最大的字符串,使得它在超过一半的DNA序列中连续出现。如果有多解,按照字典序从小到大输出
\[n \leq 100\\
|s| \leq 1000
\]
分析
首先用不同的分隔符把所有输入字符串(简称原串)拼起来,求这个新串的后缀数组和height数组,然后二分答案,即判断是否存在长度为\(p\)的串在超过一半的串中连续出现,判断方法是对height分组,扫描一遍height数组若包含超过\(n / 2\)个原串的后缀\(p\)就满足条件
判断时,需要\(belong\)数组用于标记这个串属于第几个串,以及一个\(vis\)数组标记这个串是否被访问
输出时,再扫描一遍即可
代码
int s[maxn];
int sa[maxn],t[maxn],t2[maxn],c[maxn],n;
int len;
void build_sa(int m){
int *x = t,*y = t2;
for(int i = 0;i < m;i++) c[i] = 0;
for(int i = 0;i < len;i++) c[x[i] = s[i]]++;
for(int i = 1;i < m;i++) c[i] += c[i -1];
for(int i = len - 1;i >= 0;i--) sa[--c[x[i]]] = i;
for(int k = 1;k <= len;k <<= 1){
int p = 0;
for(int i = len - k;i < len;i++) y[p++] = i;
for(int i = 0;i < len;i++) if(sa[i] >= k) y[p++] = sa[i] - k;
for(int i = 0;i < m;i++) c[i] = 0;
for(int i = 0;i < len;i++) c[x[y[i]]]++;
for(int i = 0;i < m;i++) c[i] += c[i - 1];
for(int i = len - 1;i >= 0;i--) sa[--c[x[y[i]]]] = y[i];
swap(x,y);
p = 1;
x[sa[0]] = 0;
for(int i = 1;i < len;i++)
x[sa[i]] = y[sa[i - 1]] == y[sa[i]] && y[sa[i] + k] == y[sa[i - 1] + k] ? p - 1:p++;
if(p >= len) break;
m = p;
}
}
int rak[maxn],height[maxn];
void getHeight(){
int k = 0;
for(int i = 0;i < len;i++) rak[sa[i]] = i;
for(int i = 0;i < len;i++){
if(k) k--;
int j = sa[rak[i] - 1];
while(s[i + k] == s[j + k]) k++;
height[rak[i]] = k;
}
}
vector<int> ans;
int belong[maxn];
bool check(int p){
int tot = 0;
unordered_map<int,bool> mp;
for(int i = 0;i < len;i++){
if(height[i] >= p) {
if(!mp[belong[sa[i]]])
mp[belong[sa[i]]] = 1,tot++;
}
else {
mp.clear();
tot = 0;
if(!mp[belong[sa[i]]]) {
mp[belong[sa[i]]] = 1;
tot++;
}
}
if(tot > n / 2) return true;
}
return false;
}
int solve(){
int l = 0,r = len;
while(l < r){
int mid = l + r + 1 >> 1;
if(check(mid)) l = mid ;
else r = mid - 1;
}
return l;
}
int main(){
bool flag = true;
while(scanf("%d",&n) && n){
if(!flag) puts("");
else flag = false;
ans.clear();
int cnt = 0;
int now = 30;
for(int i = 0;i < n;i++){
char tmp[1005];
scanf("%s",tmp);
int l = strlen(tmp);
for(int j = 0;j < l;j++){
s[j + cnt] = tmp[j] - 'a' + 1;
belong[j + cnt] = i;
}
s[l + cnt] = now++;
belong[l + cnt] = i + 1;
cnt += l + 1;
}
s[cnt] = 0;
belong[cnt] = n;
len = cnt + 1;
build_sa(200);
getHeight();
int ans = solve();
if(!ans) {
puts("?");
continue;
}
{
int tot = 0;
unordered_map<int,bool> mp;
for(int i = 0;i < len;i++){
if(height[i] >= ans) {
if(!mp[belong[sa[i]]])
mp[belong[sa[i]]] = 1,tot++;
}
else {
if(tot > n / 2) {
int cur = sa[i - 1];
for(int i = cur;i < cur + ans;i++)
printf("%c",(char)(s[i] + 'a' - 1));
puts("");
}
mp.clear();
tot = 0;
if(!mp[belong[sa[i]]]) {
mp[belong[sa[i]]] = 1;
tot++;
}
}
}
if(tot > n / 2) {
for(int i = sa[n - 1];i < sa[n - 1] + ans;i++)
printf("%c",(char)(s[i] + 'a' - 1));
puts("");
}
}
}
}