摩尔投票（绝对众数）

绝对众数：数组内出现次数大于 \(\lceil \cfrac{n}{2} \rceil\) 的数。

求绝对众数的方法：
暴力做法 \(O(n \log n)\) 排序并枚举左端点。

摩尔投票：\(O(n)\) 求出。

摩尔投票

丢个模板。


            int now = -1; int cnt = 0;
            f(j, 1, n) {
                if(x[j] != now) cnt--;
                else cnt++;
                if(cnt < 0) {
                    now = x[j]; cntx = 1;
                }
            }
            int ccnt = 0;
            f(j, 1, n) {
                if(x[j] == now) ccnt++;
            }
            if (ccnt >= len){
                cout << cnt << endl; 
            }

注意，序列存在区间众数时，一定是 \(cnt\)。序列不存在区间众数时，\(cnt\) 随机。所以还要再扫一遍。

拓展到 n / k

https://leetcode.cn/problems/majority-element-ii/

可以证明，出现次数超过 \(n/k\) 的数最多只有 \(k - 1\) 个。否则必然违背「数总共只有 \(n\) 个」或者「当前统计的是出现次数超过 \(n / k\) 的数」的前提条件。

当明确了符合要求的数的数量之后，我们可以使用有限变量来代表这 \(k−1\) 个候选数及其出现次数。

然后使用「摩尔投票」的标准做法，在遍历数组时同时 check 这 \(k - 1\) 个数，假设当前遍历到的元素为 \(x\)：

如果 \(x\) 本身是候选者的话，则对其出现次数加一；
如果 \(x\) 本身不是候选者，检查是否有候选者的出现次数为 \(0\)：
若有，则让 \(x\) 代替其成为候选者，并记录出现次数为 \(1\)；
若无，则让所有候选者的出现次数减一。
当处理完整个数组后，这 \(k - 1\) 个数可能会被填满，但不一定都是符合出现次数超过 \(n / k\) 要求的。

需要进行二次遍历，来确定候选者是否符合要求，将符合要求的数加到答案。

上述做法正确性的关键是：若存在出现次数超过 \(n / k\) 的数，最后必然会成为这 \(k - 1\) 个候选者之一。

我们可以通过「反证法」来进行证明：若出现次数超过 \(n / k\) 的数 \(x\) 最终没有成为候选者。

有两种可能会导致这个结果：

数值 \(x\) 从来没成为过候选者：

如果 \(x\) 从来没成为过候选者，那么在遍历 \(x\) 的过程中，必然有 \(k - 1\) 个候选者被减了超过 \(n / k\) 次，假设当前 \(x\) 出现次数为 \(C\)，已知 \(C>n/k\)，此时总个数为

\((k - 1) * C + C = C * k\)

再根据 \(C > n / k\)，可知 \(C * k > n\)，而我们总共就只有 \(n\) 个数，因此该情况恒不成立。

数值 \(x\) 成为过候选者，但被逐出替换了：

同理，被逐出替换，说明发生了对 \(x\) 出现次数减一的动作（减到 \(0\)），每次的减一操作，意味着有其余的 \(k - 2\) 个候选者的出现次数也发生了减一动作，加上本身被遍历到的当前数 \(num[i]\)，共有 \(k - 1\) 个数字的和 \(x\) 被一同统计。
因此，根据我们摩尔投票的处理过程，如果 \(x\) 成为过候选者，并被逐出替换，那么同样能够推导出我们存在超过 \(n\) 个数。

综上，如果存在出现次数超过 \(n / k\) 的数，其必然会成为 \(k−1\) 个候选者之一。

这个算法的时间复杂度为 \(O(n/k)\)。同时暴力的 \(n \log n\) 保持不变，不失为一种可能的做法。

放在线段树内维护

需要指出的是，摩尔投票可以表示为一个二元组，是可以 \(O(1)\) 合并的信息，并且具有结合律。可以在线段树内维护。

更深刻的用法和性质

考虑区间众数的两个求法。

不确定候选众数。可以摩尔投票，得出最大数并且 \(cnt\) 确定 \(> \cfrac{len}{2}\)，发现它是绝对众数。这个方法不可差分。
确定候选众数 \(v\)。每个数，如果是 \(v\) 看成 \(1\)，否则看成 \(-1\)。那么任意一个区间有绝对众数 \(v\) 当且仅当区间和 \(> 0\)。这个可以差分为若干个前缀和。

对于第二种，我们有性质：任何一个区间只有一个绝对众数，所以如果对所有候选众数做一遍，那么得到的所有有众数的区间不重复。

还有两个深刻的性质：

区间 \([l, r]\) 有绝对众数 \(v\)，那么其分裂成任意两个区间 \([l, mid]\) 以及 \([mid + 1, r]\)，这两个区间满足一定存在其中一个有绝对众数 \(v\)。
\([l, l], [l, l + 1], ..., [l, r]\) 这些区间，最多有 \(\log_2(r - l + 1)\) 个不同的众数。
因为某个数要做绝对众数，一定比之前的所有数都多。于是出现次数 \(1, 2, 4, 8, ...\)。

这两个性质组合起来可以有如下性质：

跨过 \(mid\) 的，在 \([l, r]\) 内的所有区间的绝对众数最多有 \(\log\) 种。这正是 cdq 分治的标准处理形式！

具体地，考虑 \([mid, mid], [mid, mid + 1 ], ..., [mid, r]\) 和 \([mid, mid], [mid - 1, mid], ..., [l, mid]\) 中所有出现过的绝对众数，就是这些区间可能有的所有绝对众数。

然后你要批量处理这些区间的信息，可以这样：对于每一个可能的绝对众数，做第 2 种判定方式（前缀和），得到 \(s_l, ..., s_r\)。然后分成两半 \(s_l, ..., s_{mid}\) 和 \(s_{mid + 1}, ..., s_r\)，排序然后双指针归并，\([l, r]\) 有绝对众数 \(v\) 当且仅当 \(\mathbf{s_r > s_{l - 1}}\)。

这样处理起来，时间复杂度：

\[T(n) = 2 T(\cfrac{n}{2}) + O(n \log^2 n) \]

是三个 \(\log\) 的，但是卡的非常不满，跑起来像一个 \(\log\) 一样（笑，排序我可以改成桶，然后绝对众数卡不满这样就像 \(1 \log\) 了）

5e5 跑了 600ms（arc159_f）。

总结一下，这个方法帮助我们找到和处理所有含有绝对众数 \(v\) 的区间的方式，是很万能的，但是时间复杂度稍微难看点。

考虑最后一个过程，是给定一些 \(s\)，查询 \(s_l <s_r\) 的问题。这是一维偏序，值域是 \(O(len)\) 的，你可以认为 \(r\) 是查询，查询 \(<x\) 的数有几个。可以 \(O(len)\) 预处理答案，对于每一个 \(r\) 都是询问一下的事情。这样直接降到了 \(O(n\log^2 )\)。

posted @ 2022-10-10 22:02 OIer某罗阅读(812) 评论(0) 收藏举报

刷新页面返回顶部

Zeardoe

摩尔投票（绝对众数）

摩尔投票

拓展到 n / k

放在线段树内维护

更深刻的用法和性质

公告