Lyndon Word 学习笔记

【定义与性质】

Primitive Word（PW）：没有循环节的字符串。

Lyndon Word（LW）：字典序严格小于它所有 cyclic-shift 的字符串。

LW 有很多美妙的性质。记 $w$ 为一个字符串。

定义一个新符号 $<_{!}$ ：若 $a <_{!} b$ ，则 $a$ 字典序小于 $b$ 且 $a$ 不是 $b$ 的前缀。
$>_{!}$ 类似定义。

$w \in L W ⟺$ $w$ 严格小于 $w$ 所有 cyclic-shift。这是定义。
若 $w \in L W$ ，则 $w$ 无 border。

若 $w = u v u$ ，则 $w = x u = u y$ ，则 $w = u y < u x$ （ $w$ 小于所有 cyclic-shift）。

$∵ u y < u x ∴ y < x$ ，同理可知 $x < y$ 。矛盾。

所以 $w$ 无 border。
等价定义： $w \in L W ⟺ w$ 小于所有真后缀。

记 $w$ 的一个后缀为 $v$ ， $w = u v$ 。

若 $u v \in L W$ ，反证法，如果 $u v > v$ ，因为 $u v$ 无 border，所以 $u v >_{!} v$ ，则 $u v > v u$ ，与 $u v \in L W$ 矛盾。

若 $u v < v$ ，有 $u v < v < v u$ 。

证毕。
等价定义： $w \in L W ⟺$ 将 $w$ 任意拆成 $w = u v$ ， $u < v$ 。（ $u, v$ 非空）

换句话说就是 $w$ 的前缀小于后缀。

$\Leftarrow$ ：证 $u v < v u$ 。若 $u <_{!} v$ ，显然；否则 $u$ 是 $v$ 的前缀。

设 $v = u^{k} r$ ，其中 $| r | < | u |$ 。则 $w = u^{k + 1} r$ 。因为前缀小于后缀， $u^{k + 1} < r$ ，所以 $u <_{!} r$ 。（注意 $| r | < | u |$ 不可能是前缀）

而 $u v = u^{k + 1} v, v u = u^{k} r u$ ，显然有 $v u > u v$ 。

$\Rightarrow$ ： $w \in L W$ 。那么 $w$ 小于每个真后缀。

则 $w = u v$ ，有 $u < u v < v$ 。（第一个 $<$ 是前缀关系，第二个是真后缀）
记 $u, v \in L W$ 。 $u v \in L W ⟺ u < v$ 。

$\Rightarrow$ ：由上面的等价定义直接推出。

$\Leftarrow$ ：尝试用 "小于每个真后缀" 证明。

把所有真后缀 $s u f$ 分类： $v$ 是 $s u f$ 真后缀的、 $s u f = v$ 、 $s u f$ 是 $v$ 真后缀。
1. $v$ 是 $s u f$ 真后缀的。则 $s u f$ 可以写成 $u^{'} v$ 的形式。 $u^{'}$ 是 $u$ 的真后缀。
  
  因为 $u \in L W$ ，所以 $u$ 没有 border 且 $u < u^{'}$ ，所以 $u <_{!} u^{'}$ ，所以 $u v < u^{'} v$ 。
2. $s u f = v$ 。若 $u <_{!} v$ ，显然成立；否则 $u$ 是 $v$ 的前缀，设 $v = u v^{'}$ 。因为 $v \in L W$ ，所以 $v < v^{'}$ ，（同时加 $u$ ）所以 $u v < u v^{'} = v$ ，得证。
3. $s u f$ 是 $v$ 的真后缀。 $u v < v < s u f$ 。
证毕。
LW 的标准分解定理。若 $w \in L W$ ，取 $w$ 的最小真后缀 $v$ ，则 $v$ 是 $w$ 的最长 $L W$ 真后缀，且（记 $w = u v$ ） $u, v \in L W$ 。

证明：

若存在 $s v \in L W$ 。因为 $s v \in L W$ ，知 $s v < v$ ，我们就得到了一个比最小真后缀更小的真后缀，矛盾。

因为 $v$ 是最小真后缀，所以 $v$ 小于所有 $v$ 的真后缀，所以 $v \in L W$ 。

因为 $u v \in L W$ ，所以对于任意 $u$ 的后缀 $u^{'}$ ，有 $u v < u^{'} v$ 。因为 $| u | > | u^{'} |$ ，所以 $u < u^{'}$ ，所以 $u \in L W$ 。
由 6 引申出一个 $L W$ 的递归定义法，就是每个长度 $> 1$ 的 $L W$ 都能拆成两个 $L W$ 。

【Lyndon 分解】

定理：每一个字符串 $s$ 都能唯一表示为 $s = w_{1} w_{2} \dots w_{k}$ ，满足 $w_{i} \in L W$ 且 $w_{i} \geq w_{i + 1}$ 。

存在性：

先把 $s$ 拆成 $n$ 个单字符（显然单个字符是 $L W$ ），然后只要有两个相邻的前面 $<$ 后面，就合并。这么做是对的，理由来自上面性质的第五点。把 $<$ 都合并了就余下 $\geq$ 了。

唯一性：

反证法。考虑两种方案 $S, S^{'}$ ，假设 $S_{i}$ 、 $S_{i}^{'}$ 是第一处不相同的分解位置。

不妨 $| S_{i} | > | S_{i}^{'} |$ 。记 $S_{i} = S_{i}^{'} S_{i + 1}^{'} \dots S_{k - 1}^{'} P r e (S_{k}^{'}, t)$ ，就是一堆整的加一个前缀。要求 $k > i$ 。

因为 $S_{i} \in L W$ 且 $P r e (S_{k}^{'}, t)$ 是它的一个后缀，所以 $P r e (S_{k}^{'}, t) > S_{i}$ 。

因为 $S_{i}^{'}$ 是 $S_{i}$ 的前缀，所以 $S_{i} > S_{i}^{'}$ 。

所以 $P r e (S_{k}^{'}, t) > S_{i} > S_{i}^{'} \geq S_{i + 1}^{'} \geq \dots \geq S_{k - 1}^{'} \geq S_{k}^{'}$ 。于是得到了 $P r e (S_{k}^{'}, t) > S_{k}^{'}$ ，前缀大于本身，矛盾。

Lyndon 分解有它美妙的性质。记 $C F L (w) = w_{1} \cdotsw_{m}$ 为 $w$ 的 Lyndon 分解。

$w_{m}$ 是最小后缀。

考虑 $w$ 的一个后缀 $v$ ，如果 $v$ 是 $w_{m}$ 的后缀，因为 $w_{m} \in L W$ ，所以 $w_{m}$ 会比它更小。

而当 $v = w_{i}^{'} w_{i + 1} w_{i + 2} \dots w_{m}$ ，其中 $w_{i}^{'}$ 是 $w_{i}$ 的一个后缀。 $v > w_{i}^{'} \geq w_{i} \geq w_{i + 1} \geq \dots \geq w_{m}$ 。
$w_{m}$ 是最长的 $L W$ 后缀。

$w_{m}$ 是最小后缀，所以任意比 $w_{m}$ 长的后缀都有 $w_{m}$ 这个更小的真后缀，非 $L W$ 。
$w_{1}$ 是最长 $L W$ 前缀。

记 $s = w_{1} w_{2} \dots w_{k}^{'}$ ， $w_{k}^{'}$ 是 $w_{k}$ 的前缀。则 $s > w_{1} \geq w_{2} \geq \dots \geq w_{k} \geq w_{k}^{'}$ ，于是 $s$ 有了一个更小的后缀。

【Duval 算法求 Lyndon 分解】

定义：准 $L W$ 。若 $t = w^{k} w^{'}$ ，且 $w \in L W$ ， $w^{'}$ 是 $w$ 的前缀，则 $t$ 是准 $L W$ 。

容易发现，准 $L W$ 就是 $L W$ 的前缀。

引理：两字符 $c < c^{'}$ 。若 $v c$ 是准 $L W$ ，则 $v c^{'}$ 是 $L W$ 。

证明： $v c$ 是准 $L W$ ，记 $v c u$ 是 $L W$ 。有 $v c u$ 任意一个前缀 $<$ 后缀。考虑 $v$ 的一个前缀 $a$ ， $a < (v - a) c u < (v - a) c^{'}$ ，所以 $v c^{'}$ 的任意一个前缀也 $<$ 后缀。

Duval 算法是一个能 $O (| w |)$ 求出 $w$ 的 Lyndon 分解的算法。

在算法过程中，我们把字符串 $w$ 分成四类：已经输出的、连续相同的 $L W$ 、 $L W$ 的前缀、未处理部分。

黑色部分是已经输出的 $s_{1} \sim s_{g}$ ，要求 $s_{1} \geq s_{2} \geq \dots \geq s_{g}$ 。

蓝色部分是正在处理，尚未确定的部分。 $t_{1} \sim t_{h}$ 都相等， $v$ 是 $t_{i}$ 的前缀。可以把 $t_{1} t_{2} \dots t_{h} v$ 看作一个准 $L W$ 。

红色部分是尚未处理的。

然后我们维护三个指针 $i, j, k$ 。 $i$ 指向蓝色部分的开头， $k$ 指向下一个要处理的字符， $j$ 指向 $k - | t_{i} |$ （可以理解为若还想保持 $t_{i}$ 不变， $k$ 指向的字符应该和 $j$ 指向的字符相同）。

$w_{k} = w_{j}$ 。若 $v$ 已经等于 $t_{i}$ 了，新开一个 $v$ ；否则往 $v$ 里加就好。
$w_{k} > w_{j}$ 。把 $t_{1} t_{2} \dots t_{h} v w_{k}$ 一起作为一个新的 $t_{1}$ 。
$w_{k} < w_{j}$ 。输出 $t_{1} \sim t_{h}$ （变成 $s$ 部分），令 $k$ 指向 $v$ 开头重新跑。

若 $k$ 已经指向结尾之后，但是 $v$ 非空，把 $k$ 指向 $v$ 开头重新跑。

代码很短。

点击查看代码

#include <bits/stdc++.h>

using namespace std;

int n;
string s;
int i, j, k;

int main() {
	int ans = 0;
	cin >> s;
	n = s.size();
	s = ' ' + s;
	i = 1;
	while (i <= n) {
		j = i;
		k = i + 1;
		while (s[k] >= s[j]) {
			if (s[k] == s[j])
				j++;
			else
				j = i;
			k++;
		}
		while (i <= j) {
			ans ^= (i + (k - j) - 1);
			i += k - j;
		}
	}
	cout << ans << endl;
	return 0;
}

【Lyndon 分解的各种应用】

求字符串的最小表示法

若对 $s$ 求最小表示法，令 $s^{'} = s s$ 。 $C F L (s^{'})$ 中包含 $s_{n}^{'}$ 的 LW 开始位置，就是 $s$ 最小表示法的开始位置之一。

引理：设 $C F L (w) = w_{1} \dots w_{m}$ 。 $w_{i} = w [L_{i}, R_{i}]$ 。则以 $[1, R_{i}]$ 作为起点的后缀中，以 $L_{i}$ 为起点的是最小的。

证明：考虑起点 $x \neq L_{i}$ 。

$L_{i} < x \leq R_{i}$ 。因为 $w_{i} \in L W$ ，所以 $w_{i} < w [x, R_{i}]$ ，所以 $w_{i} <_{!} w [x, R_{i}]$ （长度更长还小）。所以 $s u f (L_{i}) < s u f (x)$ 。
$x < L_{i}$ ，设 $x \in [L_{j}, R_{j}]$ ， $w_{j}^{'} = w [x, R_{j}]$ 。

有 $w_{j}^{'} \geq w_{j} \geq w_{j + 1} \geq \dots \geq w_{i}$ ，所以 $w_{i} \leq w_{j}^{'}$ 。

若 $w_{i} <_{!} w_{j}^{'}$ ，显然；否则 $w_{i}$ 是 $w_{j}^{'}$ 的前缀。

那么比 $s u f (x), s u f (L_{i})$ 其实就是比 $s u f (x + R_{i} - L_{i} + 1), s u f (L_{i + 1})$ 。

如此循环下去，可以用归纳法到 $s u f (x + ?), s u f (L_{m})$ ，而 $w_{m}$ 是最小后缀。

证完引理，回到原来的算法。在 $s^{'}$ 中，最小表示法就是 $s^{'}$ 的一个长度为 $| s |$ 的子串。

要比较它们，也相当于比较对应开始位置在 $s^{'}$ 里的后缀的大小关系。最小者，肯定前 $| s |$ 个字符也是最小的。

Lyndon Word 生成算法/找后继

记 $| \sum | = k$ 。要求按照字典序从小到大生成所有长度 $\leq n$ ，字符集大小为 $k$ 的 LW。

把字符集看作 $k$ 进制数。最小的 LW 显然是 $0$ 。如果我们能找某个 LW 的后继，就可以从 $0$ 生成所有的了。

而可以找到 $w \in L W$ 的后继。这么做：

截取 $R (w)$ 的前 $n$ 个字符，记为 $w^{'}$ 。（例如 $n = 3, w = 01, w^{'} = 010$ ）
删除 $w^{'}$ 末尾连续的最大字符。（例如 $w^{'} = 012, k = 3$ ，删完之后 $w^{'} = 01$ ）
$w^{'} + 1$ ，就是 $k$ 进制数意义下的。因为已经删完了末尾的最大字符，所以肯定不会进位。

例如 $\sum = {0, 1, 2}, n = 3$ ，可以生成出： $0, 001, 002, 01, 011, 012, 02, 021, 022, 1, 112, 12, 122, 2$ 。

LW 计数

求 $l e n \leq n, | \sum | = k$ 的 LW 个数。

可以等价到另外一个问题：项链计数，要求没有循环节，称这个为问题 1。
考虑问题 2：项链计数，允许有循环节。

记问题 1 的答案为 $S_{n}$ ，问题 2 的答案为 $T_{n}$ 。（ $k$ 是固定的）

考虑集合 $A$ 包含所有 $n$ 个珠子的项链，显然 $| A | = k^{n}$ 。

考虑集合 $B$ （多重集）包含 $T_{n}$ 里所有项链的 cyclic-shift。

$B$ 的大小比 $A$ 大，因为有的项链重复出现了。（例如 $0101$ 出现两次）
同时 $| B | = n \cdot T_{n}$ 。

考虑算 $| B |$ 。用 $A$ 中每个元素在 $B$ 出现次数之和除以 $n$ 可得 $T_{n}$ 。记 $S$ 为出现次数之和

\begin{aligned} S & = \sum_{(a_{0}, \dots, a_{n - 1}) \in A} \sum_{i = 0}^{n - 1} [a_{0} a_{1} \dots a_{n - 1} = a_{i} \dots a_{n - 1} a_{0} \dots a_{i - 1}] \\ = \sum_{i = 0}^{n - 1} \sum_{(a_{0}, \dots, a_{n - 1}) \in A} [\dots] \\ = \sum_{i = 0}^{n - 1} k^{g c d (n, i)} (相当于枚举循环节长度) \\ = \sum_{d ∣ n} φ (d) \cdot k^{\frac{n}{d}} \end{aligned}

所以 $T_{n} = \frac{1}{n} \sum_{d ∣ n} φ (d) \cdot k^{\frac{n}{d}}$ 。另外 $T_{n} = \sum_{d ∣ n} S_{d}$ ，即枚举循环节。

推导一下。记 $K (x) = k^{x}$ .

T_{n} = \frac{1}{n} \sum_{d ∣ n} φ (d) \cdot k^{\frac{n}{d}} \Rightarrow n \cdot T_{n} = φ * K \Rightarrow n \cdot T = i d * μ * K

同时 $T_{n} = \sum_{d ∣ n} S_{d} \Rightarrow n \cdot T = n (S * 1)$ 。

待证明：经过一些运算， $n \cdot T = i d * (n S)$ 。

所以 $n \cdot T = i d * μ * K = i d * (n S)$ ，所以 $n S = μ * K$ ，所以 $S_{n} = \frac{1}{n} \sum d ∣ n μ (d) \cdot k^{\frac{n}{d}}$ 。

【利用 Duval 算法中间结果】

在跑 Duval 的过程中同步计算答案。

求每个前缀的最小后缀

记 $a n s [i]$ 为 $w [1 \sim i]$ 最小后缀开始位置。

$w [k] = w [j]$ ，则 $a n s [k] = a n s [j] + (k - j)$ 。可以类比着来看。
$w [k] > w [j]$ ， $a n s [k] = i$ 。
$w [k] < w [j]$ ，这种情况不管，因为 $k$ 回溯之后会处理的。

posted @ 2024-08-05 23:26 FLY_lai 阅读(30) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· 指针扫描型字符串算法

· P4156 论战捆竹竿题解

· Lyndon 理论学习笔记

· Lyndon 串相关知识速记

· Lyndon 分解学习笔记

阅读排行：
· 阿里最新开源QwQ-32B，效果媲美deepseek-r1满血版，部署成本又又又降低了！
· 单线程的Redis速度为什么快？
· SQL Server 2025 AI相关能力初探
· AI编程工具终极对决：字节Trae VS Cursor，谁才是开发者新宠？
· 展开说说关于C#中ORM框架的用法！

公告

昵称： FLY_lai
园龄： 1年1个月
粉丝： 9
关注： 10

+加关注

2025年3月

日

一

二

三

四

五

六

FLYlai

Lyndon Word 学习笔记

【定义与性质】

【Lyndon 分解】

【Duval 算法求 Lyndon 分解】

【Lyndon 分解的各种应用】

求字符串的最小表示法

Lyndon Word 生成算法/找后继

LW 计数

【利用 Duval 算法中间结果】

求每个前缀的最小后缀

公告

搜索

常用链接

我的标签

合集

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论