谈谈RMQ问题
没用的话:好像好久没更博了,无聊就讲讲算法吧(主要找不到水题)。
感觉针对初学者,老师教这个算法时没怎么懂,最近(大概1、2个月前吧)老师又教了lca(最近公共祖先,额,可以百度,我就不讲了,可能以后会再写一篇博客关于这个)讲到lca转RMQ才又回来认真复(xue)习(xi)。大概搞懂了,本质是dp。
认识RMQ:
要学习RMQ,首先要知道RMQ问题是什么吧?
RMQ简单来说就是求区间的最大值(最小值)。
什么?没懂!
举个栗子:
1 -2 9 10 15 38 -9
这里有 7 个数(随便输的),RMQ就是用来查询这些数中的最大值(最小值),但是是区间的。比如查询 [1,3] 这个区间的最大值 就是 9 这个值 .
这样讲应该懂了吧。
暴力解法:
其实这样的题目可以直接暴力对吧,一重循环枚举区间就好了。
但是如果有多个询问效率显然就低了很多,因为可能会重复计算。
所以会有人想到dp吧。
RMQ解法:
而RMQ的一解法就是一个神奇dp。(当然你也可以线段树)
RMQ感觉很少用到,但这个dp思想却能有很大启发! (具体来讲,这个思想是倍增)
进入正题——RMQ(以下以求最大值为例)
F[i,j]表示 从 i 开始 到i+2j -1(可能不是很清楚,是二的 j 次方再减一)这个区间中的最大值
什么?为什么要用 2j 这么奇怪的东西? 这就是RMQ的神奇
然后就是初始值了 显然 F[i,0]=a[i](原始数组) 对吧 因为 20 等于1 一个数的区间最大值肯定就是这个数 你总不会说 [2,2] 这个区间的最大值在[3,3]这个区间吧?
辣么状态转移方程呢?
F[i,j]=max(f[i,j-1],f[i+2j-1,j-1])
这么啪给你肯定是不懂的
自己画了张图:
假如要求绿色这段区间的最大值,实际上主要这段蓝色这段区间的最大值和红色这段区间的最大值就可以了对吧,
绿色这段区间的最大值就会等于max(蓝色最大值,红色最大值)
因为dp是递推而来的,所以蓝色最大值和红色最大值是已知的,
所以方程就是 F[i,j](这里指[1,4]这个区间,所以i=1,j=2)=max(f[i,j-1](指[1,2]这个区间,所以i=1,j-1=1) ,f[i+2j-1,j-1](指[3,4]这个区间,所以i=1+21=3 j-1=1))
可能不好理解,j可以抽象为[1,4] 4个数, j-1 就为2个数 ,已知 2 个连续的 2个数的区间 那么就能求出1个 4个数的区间
大概代码:
for i=1 --> n f[i,0]=a[i]; //初始化 for j=1 --> log2(n) for i=1 --> n f[i,j]=max(f[i,j-1],f[i+(1 << (j-1))]);// RMQ状态转移方程
如果你问为什么j放外循环,那就是对RMQ还不够理解。
如果j放了内循环,那么求解顺序就变成了 f[1..n,1]...f[1..n,log2(n)] 这样就不会先求出 2 个连续的 2个数的区间的最大值,也就不能dp了。
上面讲完了RMQ的dp之后捏,会发现还缺了一个步骤,预处理完当然是查询辣~
我萌已经预处理出了 f[i,j] 表示 原数组a[] 中从 下标为 i 开始之后的 2j 个数中的最大值。
也许很抽象,还是举个栗子。
比如
1 -2 9 10 15 38 -9 (我会跟你说这是上面的栗子是因为我想不出栗子了么)
辣么 f[1,1] 就是代表 [1,2] 这个区间的最大值 也就是 f[1,1]=1。
f[1,2] 就是代表 [1,4] 这个区间的最大值 也就是 f[1,2]=10。
辣么 f[] 数组所代表的含义应该很清楚了吧...所以肿么查询
我萌需要找到两个区间,而这两个区间合起来后能包含整个查询区间而且不包含除查询区间的数。
还是上面辣个栗子
比如查询 区间 [2,6] 要肿么查询,我萌就找两个区间, [2,5] 和 [3,6]这两个区间
因为是查询最大值所以就是两个区间有交集也没什么关系。
辣么问题来了,为什么是这两个区间而不是其他的两个区间捏。
为了能把区间用 f[i,j] 的方式表示出了,我萌可以发现 区间 [2,5] 实际上就是 区间 [2,2+22-1] 辣么这个区间的最大值就可以用 f[2,2] 表示
同样的 区间 [3,6] 也可以表示成 f[i,j] 为 f[3,2] 这样只需要O(1) 就查询好了
辣怎么去找这两个区间?简单理解是这样的,因为要包含查询区间又不允许包含除查询区间的数。所以这两个区间必然是这样的 (设查询区间 [l,r] )
[l,x] [r-(x-l),r] 可以说这个 x值只要满足 (l<=x<=r)且(x>=(r-l)/2) 就可以,但是为了满足 f[i,j] 就必须保证 (x-l+1) 为2的 k (k为自然数)次方(不理解的话拿上面的栗子算一下)
所以用log2 就能找到一个k值, k=log2(r-l+1) (取整) (r-l+1)是查询区间的长度,log2后就得到了必然满足 (x-l+1) 为2的某次方的条件。
辣么就可以用k来表示 f[] 数组了 两个区间 的最大值为 f[l,k] 和 f[r-2k+1,r] 所以ans=max(f[l,k],f[r-2k+1,r])。
最后,也许你会有点奇怪...为什么非得用2j的来表示f[]数组。我觉得两个原因吧。
一是dp的需要,用2j表示就可以在O(1)的时间里进行比较,因为只要比较两个区间,而3j需要比较三个区间。(也许我瞎bb其实也不是很清楚)
二是可以利用电脑二进制的属性,利用位运算更快的求出2j的值。
大概就讲这么多,希望有帮助。
RMQ应用还是不多,也就大概是lca ,建议学的是思路.
上次留下的大坑啊...过了将近半年才回来补...