小月赛 C 线性哈希做法!
upd:现在是严格线性了。
设 $\{w_n\}$ 有 $k$ 个颜色段,那 $\{w_n\}$ 就可以等效成 $\{a_k\},\{s_k\}$,
其中 $a_i$ 表示第 $i$ 个颜色段的值,$s_i$ 表示第 $i$ 个颜色段的长度。
把主串等效成 $\{a_u\},\{s_u\}$,模式串等效成 $\{b_v\},\{t_v\}$,
注意到 $\forall i\in[1,v],t_i\gets\dfrac{t_i}{\gcd\limits_{j=1}^vt_j}$ 对答案无影响,而此时若两串匹配,则 $\forall i,\dfrac{s_i}{t_i}=k$ 且 $k\in\mathbf N_+$。
证明 $k\in\mathbf N_+$:若 $k$ 为分数,设 $k$ 约分后分母为 $p$,则一定有 $\forall i,p|t_i$ 即 $p|\gcd t_i$,因为 $s_i=t_ik$ 为整数,
而 $\forall i\in[1,v],t_i\gets\dfrac{t_i}{\gcd\limits_{j=1}^vt_j}$ 后 $t_i$ 互质,即 $\gcd t_i=1$,则 $p=1$,即 $k$ 为整数。
诶那你求 $\gcd\limits_{j=1}^vt_j$ 不就 $O(v\log m)$ 了……其实不然,实际上这个 $\gcd$ 可以直接枚举……
因为 $\gcd\limits_{j=1}^vt_j\le\min\limits_{j=1}^vt_j$,所以枚举的复杂度为 $O(v\min\limits_{j=1}^vt_j)=O(\sum\limits_{i=1}^vt_j)=O(m)$,是线性的……
考虑用等效后的序列进行匹配,则 $[l,r]$ 匹配模式串当且仅当 $\forall i\in[l,r],a_i=b_{i-l+1}$ 且 $\forall i\in(l,r),\dfrac{s_i}{t_{i-l+1}}=k$ 且 $\dfrac{s_l}{t_1}\ge k,\dfrac{s_r}{t_v}\ge k$(左右两端的连续段可能不完整匹配)
$\forall i\in[l,r],a_i=b_{i-l+1}$ 好做,直接哈希掉。$\forall i\in(l,r),\dfrac{s_i}{t_{i-l+1}}=k$ 即 $\forall i\in(l,r),s_i=t_{i-l+1}k$,
即 $s$ 中这个子串可以匹配 $\{\{t_ik\}|mk\le n\}$ 中的某一序列,把这些序列的哈希值都预处理出来即可,
注意 $t_ik$ 会很大,可能没法哈希,但是
且其他点中连续段仅有不超过 100 种不同的长度。
所以把 $t_ik$ 离散化一下就行,设预处理出的哈希值集合为 $V$,
此时存在整数 $k$ 使得 $\forall i\in(l,r),s_i=t_{i-l+1}k$ 当且仅当 $s_{(l,r)}$ 的哈希值 $\in V$。
顺便把 $k$ 求出来,$\dfrac{s_l}{t_1}\ge k,\dfrac{s_r}{t_v}\ge k$ 判一下就行。
考虑预处理 $\{\{t_ik\}|mk\le n\}$ 哈希值的复杂度,
其中每个序列长度为 $v$,共 $\lfloor\dfrac nm\rfloor$ 个序列,所以总复杂度 $O(v\lfloor\dfrac nm\rfloor)=O(n)$。
匹配的复杂度显然线性。
#include <cstdio>
#include <unordered_map>
using namespace std;
int n, m, u, v, O, a[5000050], b[5000050], s[5000050], t[5000050], T[5000050];
unsigned long long B, p[5000050], h1[5000050], h2[5000050];
unordered_map<unsigned long long, int> V;
int main()
{
scanf("%d%d", &n, &m);
for (int i = 1, x, l = -1, c = 0; i <= n; ++i)
{
scanf("%d", &x);
if (x == l)
++c;
else
{
if (~l)
a[++u] = l, s[u] = c;
l = x, c = 1;
}
if (i == n)
a[++u] = l, s[u] = c;
}
for (int i = 1, x, l = -1, c = 0; i <= m; ++i)
{
scanf("%d", &x);
if (x == l)
++c;
else
{
if (~l)
b[++v] = l, t[v] = c;
l = x, c = 1;
}
if (i == m)
b[++v] = l, t[v] = c;
}
if (v == 1)
{
long long q = 0;
for (int i = 1; i <= u; ++i)
if (a[i] == b[1])
q += s[i] * (s[i] + 1ll) >> 1;
return !printf("%lld", q);
}
int o = 1e9, g = 0;
for (int i = 1; i <= v; ++i)
o = min(o, t[i]);
for (g = o; g; --g)
{
bool f = 1;
for (int i = 1; i <= v; ++i)
if (t[i] % g)
{
f = 0;
break;
}
if (f)
break;
}
for (int i = 1; i <= v; ++i)
t[i] /= g;
if (v == 2)
{
long long q = 0;
for (int i = 1; i < u; ++i)
if (a[i] == b[1] && a[i + 1] == b[2])
q += min(s[i] / t[1], s[i + 1] / t[2]);
return !printf("%lld", q);
}
long long q = 0;
for (int i = 1; i <= u; ++i)
h1[i] = h1[i - 1] * 233 + a[i], h2[i] = h2[i - 1] * 233 + (T[s[i]] ? T[s[i]] : T[s[i]] = ++O);
for (int i = p[0] = 1; i <= v; ++i)
p[i] = p[i - 1] * 233, B = B * 233 + b[i], T[t[i]] ? T[t[i]] : T[t[i]] = ++O;
for (int i = 1; m * i <= n; ++i)
{
unsigned long long H = 0;
for (int j = 2; j < v; ++j)
H = H * 233 + T[t[j] * i];
V[H] = i;
}
if (O <= 100)
{
for (int i = 1, o; i <= u - v + 1; ++i)
if (h1[i + v - 1] - h1[i - 1] * p[v] == B && V.count(h2[i + v - 2] - h2[i] * p[v - 2]))
{
o = V[h2[i + v - 2] - h2[i] * p[v - 2]];
q += s[i] >= o * t[1] && s[i + v - 1] >= o * t[v];
}
return !printf("%lld", q);
}
else
{
for (int i = 1, f, o; i <= u - v + 1; ++i)
{
f = 1;
o = 0;
if (h1[i + v - 1] - h1[i - 1] * p[v] == B)
{
for (int j = i + 1; j < i + v - 1; ++j)
{
if (s[j] % t[j - i + 1] || o && o != s[j] / t[j - i + 1])
{
f = 0;
break;
}
if (!o)
o = s[j] / t[j - i + 1];
}
if (f && s[i] >= o * t[1] && s[i + v - 1] >= o * t[v])
++q;
}
}
return !printf("%lld", q);
}
}