bitset 的妙用：乱搞字符串匹配

最近碰到了几次 bitset 乱搞字符串匹配的情况，故写文以记之。

1. 算法简介

核心思想：假设文本串为 $s$ ，则对字符集中的每一个字符 $c$ 开一个大小为 $| s |$ 的 bitset $N_{c}$ ，记录 $c$ 出现在 $s$ 中的哪些位置。

用多个模式串 $t$ 去匹配 $s$ ，并且求出 $t$ 在 $s$ 中每一次出现的结束位置，那么有这样一个套路：开一个长度为 $| s |$ 的 bitset $M$ 作为答案，一开始每一位都为 $1$ 。 $M$ 的含义：所有为 $1$ 的位为可能的结束位置。遍历 $t$ 中的每一个字符 $t_{i}$ ，并将 $N_{t_{i}}$ 左移（数位从小到大是从右往左，而位置是从左到右，注意区分） $| t | - i$ 位的结果 $N_{t_{i}}^{'}$ 按位与 $M$ ，即 $M \leftarrow M bitand N_{t_{i}}^{'}$ 。最后得到的 $M$ 即为 $t$ 在 $s$ 中所有出现的结束位置。总的时间复杂度为 $O (\frac{| s | \sum | t |}{ω})$ 。

这实际上就是将暴力匹配用 bitset 优化了一下。对于 $t_{i}$ 考虑对可能的结束位置的限制：只有 $t_{i}$ 在 $s$ 中的所有出现位置向右移动 $| t | - i$ 位后的所有位置，才可能成为 $t$ 最终的结束位置。而将所有限制合起来就可以得到最终的结束位置。

冷知识：bitset 有数值类型的 _Find_first() 和 _Find_next(x) 函数（后者如果没有找到下一个位置会返回 bitset 的大小）。这可以非常方便地帮助我们在 $O (\frac{n}{ω} + c)$ 的复杂度内找到 bitset 中所有为 $1$ 的位置。具体使用可以看例题 II。

废话不多说，来两道例题感受一下 bitset 的神奇之处。

2. 例题

I. CF914F Substrings in a String

题意简述：给出文本串 $s$ ，多次询问 $l, r, y$ 求 $y$ 在 $s [l : r]$ 中出现了多少次。带修。 $| s |, \sum | y | \leq 10^{5}$ 。

~~太经典了。~~

注意到这个带修就很恶心，普通的 SAM 做不起来。接下来有两个选择：

巨大多难写的分块 SAM。这里安利一下我的 SAM 学习笔记。
注意到时限竟然有 6s，而数据范围只有 $10^{5}$ ，于是 bitset 暴力硬莽就完事了嗷！！！！11

具体实现方法和上题几乎一模一样，带修直接修改 bitset，查询的时候将 $M$ 分别右移 $l + | y | - 2$ 位和 $r$ 位，使用类似前缀和的思想去掉区间带来的影响（即计算 $[l + | y | - 1, n]$ 与 $[r + 1, n]$ 的贡献差）。计算得到的两个 bitset 分别有多少 1，作差，再与 $0$ 取最大值即可（因为 $l + | y | - 2$ 可能大于 $r$ ，而 bitset 的 count 应该是 unsigned int，老坑了）。

这样我们就用非常简单的方法切掉了一道 *3000 的题目。

#include <bits/stdc++.h>
using namespace std;

const int N=1e5;
const int S=26;

int n,q,len,tp,l,r;
char s[N],t[N],ch;
bitset <N> c[S],ans;

int main(){
	scanf("%s%d",s,&q),n=strlen(s);
	for(int i=0;i<n;i++)c[s[i]-'a'][i]=1;
	while(q--){
		scanf("%d%d",&tp,&l),l--;
		if(tp==1)scanf("%s",&ch),c[s[l]-'a'][l]=0,c[(s[l]=ch)-'a'][l]=1;
		else{
			scanf("%d%s",&r,t),len=strlen(t),ans.set();
			for(int i=0;i<len;i++)ans&=c[t[i]-'a']<<len-i-1;
			cout<<max(0,(int)((ans>>l+len-1).count()-(ans>>r).count()))<<"\n";
		}
	}
	return 0;
}

II. CF963D Frequency of String

题意简述：给出 $s$ ，多次询问 $k, m$ 求出 $m$ 至少出现了 $k$ 次的 $s$ 的子串的最小长度。 $| s |, \sum | m_{i} | \leq 10^{5}$ 。

这里给出一个引理：互不相同的长度之和为 $M$ 的字符串的 $e n d p o s$ 集合大小之和不超过 $n \sqrt{M}$ 。

证明：互不相同的长度为 $L$ 的字符串 $e n d p o s$ 集合大小之和为 $n - L + 1$ ，而 $\sum L \leq M$ 意味着最多只有 $\sqrt{M}$ 种长度，得证。

那么可以 SAM + 线段树合并 or ACAM or bitset 求出 endpos 集合，然后直接暴力枚举即可。如果使用 bitset 则要用到上面提到的 _Find_first() 与 _Find_next(x) 函数，时间复杂度为 $O (\frac{| s | \sum | m |}{ω} + | s | \sqrt{\sum m})$

bitset，永远滴神！！！！！11111

#include <bits/stdc++.h>
using namespace std;

const int N=1e5;
const int S=26;

int n,q,len,k,cnt,p[N];
char s[N],t[N];
bitset <N> c[S],ans;

int main(){
	scanf("%s%d",s,&q),n=strlen(s);
	for(int i=0;i<n;i++)c[s[i]-'a'][i]=1;
	while(q--){
		scanf("%d%s",&k,t),ans.set(),len=strlen(t),cnt=0;
		for(int i=0;i<len;i++)ans&=c[t[i]-'a']<<len-i-1;
		for(int it=ans._Find_first();it!=N;it=ans._Find_next(it))p[++cnt]=it;
		int ans=1e9; for(int i=k;i<=cnt;i++)ans=min(ans,p[i]-p[i-k+1]);
		cout<<(ans==1e9?-1:ans+len)<<endl;
	}
	return 0;
}