「NOIP2020提高」字符串匹配题解

Statement

小 C 学习完了字符串匹配的相关内容，现在他正在做一道习题。

对于一个字符串 $S$，题目要求他找到 $S$ 的所有具有下列形式的拆分方案数：

$S = ABC$，$S = ABABC$，$S = ABAB \ldots ABC$，其中 $A$，$B$，$C$ 均是非空字符串，且 $A$ 中出现奇数次的字符数量不超过 $C$ 中出现奇数次的字符数量。

并递归地定义 $A^1=A$，$A^n = A^{n - 1} A$（$n \ge 2$ 且为正整数）。例如 $A = \texttt{abb}$，则 $A^3=\texttt{abbabbabb}$。

则小 C 的习题是求 $S = {(AB)}^iC$ 的方案数，其中 $F(A) \le F(C)$，$F(S)$ 表示字符串 $S$ 中出现奇数次的字符的数量。两种方案不同当且仅当拆分出的 $A$、$B$、$C$ 中有至少一个字符串不同。

小 C 并不会做这道题，只好向你求助，请你帮帮他。

Input

本题有多组数据，输入文件第一行一个正整数 TT 表示数据组数。

每组数据仅一行一个字符串 SS，意义见题目描述。SS 仅由英文小写字母构成。

Output

对于每组数据输出一行一个整数表示答案。

Example

Input:

3 nnrnnr zzzaab mmlmmlo

Output:

8 9 16

Solve 1

方法：KMP

我们首先简要概括题目：

给定字符串 S，问有多少不同的非空字符串 A，B，C 满足 S=ABABAB...ABC 且 A 中出现奇数次的字符数不多于 C。

第一眼发现：循环节

我们知道一个 KMP 有一个优秀的性质，或者叫做引理：（这里 $n=|S|$ ）

若 $n%(n-kmp[n])==0 $，则 $n-kmp[n]$ 是最小循环节长度

若 $n\%(n-kmp[kmp[n]])==0$ ，则 $n-kmp[kmp[n]]$ 是次小循环节长度

以此类推

（这个不懂的建议看看蓝书或者上网）

那我们显然有一个暴力的想法：（字符串下标从 $1$ 开始，$S[i,j]=\{s[i],s[i+1]\dots s[j]\}$）

枚举 $i=3\dots n-1$ 表示 $C=S[i,n-1]$
求出 $S[1,i-1]$ 即 $(AB)^x$ 的所有循环节
对于每一个循环节，枚举 $A$ 具体是什么，根据题目条件统计答案

注意 $A,B,C$ 皆不能为空串

显然，这个是 $O(n^4)$ 的，大致长这个样子：

for(int i=3;i<=n;++i){
    vector<int>g;
    int pos=i-1;
    while(pos){
        if((i-1)%(i-1-kmp[pos])==0)
            g.push_back(kmp[pos]);
        pos=kmp[pos];
	}
    for(int j=0;j<(int)g.size();++j){
       	int len=i-1-g[j];//|AB| = len
        for(int k=1;k<=len;++k){//枚举 A = S[1,k]
            for(int h=1;h<=k;++h)//统计前 k 个中，出现次数为奇数字符个数，假设为 cnt
            if(cnt<=C 中出现次数为奇数字符数) ans++;
        }
    }
}

我们可以一层层 $for$ 优化

Opt1

发现每次判断是否满足条件时（A 中出现奇数次的字符数不多于 C）

其实是在判断一个 $f(prefix)$ ，和一个 $f(suffix)$

显然我们可以 $O(n)$ 预处理：

void prework(){
	len=strlen(s);
	memset(cnt,0,sizeof cnt);
	for(int i=1,tot=0;i<=len;++i)
		if((++cnt[s[i]-'a'])&1)pre[i]=++tot;
		else pre[i]=--tot;
	memset(cnt,0,sizeof cnt);
	for(int i=len,tot=0;i;--i)
		if((++cnt[s[i]-'a'])&1)suf[i]=++tot;
		else suf[i]=--tot;
}

这样，最里面的 $for$ 简化成 $O(1)$：

if(pre[k]<=suf[i])ans++;

Opt2

观察，发现其实对于多个不同的循环节，都有可能枚举同样的 $k$ 进行贡献，而且，对于一个更长的循环节，它应该包含比他短的循环节的取值集合。也就是说，设循环节 $a,b$ ，其中 $|a|<|b|$，那么如果 $\exist k<|a|,pre[k]<=suf[i]$ 则这个 $k$ 在扫描 $b$ 的时候也会被更新。

（上面的话可能有点绕，但其实很显然）

我们可以写出如下的代码：

for(int i=3;i<=len;++i){
	int pos=i-1;
	while(pos){
		if((i-1)%(i-1-kmp[pos])==0)
            vis[i-1-kmp[pos]]=1;
		pos=kmp[pos];
	}
	for(int j=i-1,tot=0;j;--j){
		ans+=tot*(pre[j]<=suf[i]);
		tot+=vis[j],vis[j]=0;
	}
}

我们用一个 $vis$ 数组标明循环节的位置，然后每经过一个被标记的点，$tot++$，代表有 $tot$ 个循环节可以用当前长度为 $j$ 的 $A$ 进行更新。

注意要逆序扫描。

这样，经过上面两个优化，时间复杂度来到了 $O(n^2)$，我们拿到了 $48pts$

Opt3

这个思路来自 zjc的乐园

我们可以尝试向 $O(n\log n)$ 前进。

考虑我们为什么需要把 $(AB)^x$ 的所有位置都扫一遍来枚举 $A$

是因为我们不清楚小于等于 $suf[i]$ 的 $pre[j]$ 有哪些，同时他们的“权重”（$tot$）也不确定

我们设一个数组 $sum[i]$ 表示 $pre$ 小于等于 $i$ 的数量，那么，这样就可以 $O(26n)$ 求到：

for(int i=1;i<len;++i)
    for(int j=pre[i];j<=26;++j)//多了 pre[i] 这个点可以贡献
        sum[j]++;

作者没有想到什么好办法，只能枚举循环节了。

在尝试写代码后发现，我们如果还是枚举 $C$ 的话，不是很好写。

我们考虑把 $(AB)$ 结合为一个字符串，判断 $(AB)^i$ 是否是 $S$ 的前缀，并用借助 $sum$ 统计答案。

也就是说，我们第一层循环枚举 $(AB)$

如何判断是否是前缀？

设 $j=(AB)^x$ ，如果 $j-kmp[j]$ ，它的最小循环节是 $|AB|$ 的约数，那 $j$ 就是 $S$ 的前缀

这个可以画画图，发现是显然的。

for(int i=1;i<len;++i){
    if(i>=2){//|AB|>=2 才贡献答案
        ans+=sum[suf[i+1]];
        for(int j=i+i;j<len;j+=i)
             if(!(i%(j-kmp[j]))&&j/(j-kmp[j])>1)//是循环节且不是本身
                 ans+=sum[suf[j+1]];
             else break;
    }
    for(int j=pre[i];j<=26;++j)
        sum[j]++;
}

这里，$sum$ 的作用和前面的 tot*(pre[j]<=suf[i])差不多

（感觉自己讲的不是很清楚，$sum$ 事实上是一个动态的过程）

这样的复杂度是多少？

\[O(n*\sum_{i=1}^n \frac 1i)=O(n\log n) \]

其实跑不满， $n$ 是 $1e6$ 左右，能过（反正 ccf 过了。

Code

#include<bits/stdc++.h>
#define int long long
using namespace std;
const int N = 2e6+5;

void file(){
	freopen("string.in","r",stdin);
	freopen("string.out","w",stdout);
}
int read(){
	int s=0,w=1;char ch=getchar();
	while(ch<'0'||ch>'9'){if(ch=='-')w=-1;ch=getchar();}
	while(ch>='0'&&ch<='9')s=s*10+ch-'0',ch=getchar();	
	return s*w;
}

char s[N];
int kmp[N],cnt[30];
int pre[N],suf[N],sum[N];
int T,len;

void prework(){
	memset(cnt,0,sizeof cnt);
	for(int i=1,tot=0;i<=len;++i)
		if((++cnt[s[i]-'a'])&1)pre[i]=++tot;
		else pre[i]=--tot;
	memset(cnt,0,sizeof cnt);
	for(int i=len,tot=0;i;--i)
		if((++cnt[s[i]-'a'])&1)suf[i]=++tot;
		else suf[i]=--tot;
}
void KMP(){
	memset(kmp,0,sizeof kmp);
	for(int i=2,j=0;i<=len;++i){
		while(s[i]!=s[j+1]&&j)j=kmp[j];
		if(s[i]==s[j+1])j++;
		kmp[i]=j;
	}
}

signed main(){
	T=read();
	while(T--){
		char c=getchar();
		while(c>'z'||c<'a')c=getchar();len=0;
		while(c<='z'&&c>='a')s[++len]=c,c=getchar();
		int ans=0;
		prework();KMP();
        memset(sum,0,sizeof(sum));
        for(int i=1;i<len;++i){
            if(i>=2){
                ans+=sum[suf[i+1]];
                for(int j=i+i;j<len;j+=i)
                    if(!(i%(j-kmp[j]))&&j/(j-kmp[j])>1)
                        ans+=sum[suf[j+1]];
                    else break;
            }
            for(int j=pre[i];j<=26;++j)
                sum[j]++;
        }
		printf("%lld\n",ans);
	}
	return 0;	
}

Solve2

方法：EXKMP

$O(n\log n)$ 我不满意！我要 $O(n)$ 算法！

显然，我们 Slove1 的思路到达了一定的瓶颈，我们考虑采用另一种思路

由于这位大佬泥土笨笨 tql，而且写得非常明白，作者自认讲得没这个清楚

所以大家直接去 % 这位大佬就可以啦

posted @ 2021-08-16 23:26 _Famiglistimo 阅读(426) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

lost_heart_hurts

「NOIP2020提高」字符串匹配题解

Statement

Input

Output

Example

Solve 1

Opt1

Opt2

Opt3

Code

Solve2

公告

lost_heart_hurts

「NOIP2020提高」字符串匹配 题解

Statement

Input

Output

Example

Solve 1

Opt1

Opt2

Opt3

Code

Solve2

公告

「NOIP2020提高」字符串匹配题解