路径压缩优化并查集大家一定很熟练了,那么它的复杂度是多少呢?O(mα(n))O(m\alpha(n))

的确,很多人都是这么说的,但是事实上它的复杂度是O(mlog1+m/nn)O(m\log_{1+m/n}n)的,并且能找到一种方法卡到这样的复杂度。

要卡并查集,首先要构造一种树——二项树。这种二项树还与普通的不太一样。

定义:在给定jj的情况下,二项树TkT_k定义如下:

  • kjk\leq jTkT_k是一个点。
  • k>jk>jTkT_kTk1T_{k-1}的根结点增加一棵TkjT_{k-j}的子树。

img

这棵树非常有意思,我们可以展开TkjT_{k-j},接着展开Tk2jT_{k-2j}……

另外,也可以展开Tk1T_{k-1},接着展开Tk2T_{k-2}……

img

容易发现,图5看起来像图4的路径压缩之后的结果,但是不完全一样。

如果首先按照图5的方式展开jj棵子树,再按图4展开,可以得到

img

此时,如果在根节点上再加一个点,jj次访问T1T_1TjT_j,那么路径压缩后可以得到图5外加一个点作为根的儿子。

也就是说,这棵二项树路径压缩后约等于没有路径压缩……只是将原来作为根结点父亲的那个点变成了儿子。

至于TkT_k的点数,通过数学归纳法可以发现不会超过(j+1)k/j1(j+1)^{k/j-1}个。

假设mnm\geq n,令j=mn,i=logj+1n2+1,k=ijj=\frac{m}{n},i=\log_{j+1}\frac{n}{2}+1,k=ij,那么TkT_k的点数不超过n2\frac{n}{2}。接下来做n2\frac{n}{2}组操作,每次加入一个点作为根结点的父亲,然后对T1T_1TjT_j逐个查询,每次查询的长度是i+1i+1,同时查询的次数显然不超过mm。因此总操作次数为n2j(i+1)\frac{n}{2}j(i+1),即O(mlog1+m/nn)O(m\log_{1+m/n}n)

图片取自康复计划#4 快速构造支配树的Lengauer-Tarjan算法