算法导论第九章:中位数和顺序统计学

在一个有n个元素组成的集合中,第i个顺序统计量是该集合中第i小的元素。中位数是出现在i=(n+1)/2处(下中位)或i=(n+1)/2+1处(上中位)。

 

9.1最小值和最大值

在一个有n个元素的集合中,要做多少次比较才能确定其最小元素呢?可以很容易地给出n-1这个上界:依次查看集合中的每个元素,并记录比较过程中的最小元素。

 

n-1也是这个问题的比较次数下界:对于任意一个确定最小值的算法,可以把它看做是在各元素之间进行的一场锦标赛,每次比较都是锦标赛中的一场比赛,两个元素中较小的一方获胜,有一点很关键,就是除了最终获胜者之外,每个元素都少输掉至少一场比赛;而至少有n-1场比赛。

 

 

同时找出最大值可最小值

 

我们可以独立地找出最大值和最小值,各用n-1次比较。事实上,至多3(n/2)次比较久足以同时找到最小值和最大值。做法是记录比较过程遇到的最小值和最大值。我们不是将每一个输入元素与当前的最大值和最小值进行比较。而是成对地处理元素。先将一对输入元素互相比较,然后把较大的与当前最大值进行比较,较小的与当前最小值进行比较,因此每对元素需要比较3次。

 

练习:

9.1-1证明:在最坏情况下,利用n+lgn-2次比较,即可以找到n个元素中的第2小的元素。

参考答案:(从网上找的答案)

将n个元素进行两两比较,将较大的淘汰,较小的留下。这样通过n/2次比较就剩下n/2个元素。再进行第二轮;如此往复直到得出最小的元素。这个过程可以用一棵二叉树来描述。那么第二小的元素只有在于最小元素的比较才会被淘汰。最小的元素进行过的元素有lgn-1个。于是在进行lgn-2次比较就可以得出第二小的元素。

 

PS:这个解法的问题在于,如何记住与最小元素比较过的元素集合,难道要整棵树建出来。这样的话这个算法没有什么实际意义。

 

 

9.2以期望线性时间做选择

 一般的选择问题比找最小值的简单问题更难,两种问题的渐进运行时间却是相同的都是Θ(n)。本节介绍一种解决选择问题的分治算法,即RANDOMIZED-SELECT算法,以第七章的快速排序算法为模型,如同在排序中一样,对输入的数组进行递归划分,但和快速排序不同的是,快速排序会递归处理划分的两边,而RANDOMIZED-SELECT只处理划分的一边。RANDOMIZED-SELECT的期望时间为Θ(n)。

 

RANDOMIZED-SELECT(A,p,r,i)

1  if p=r

2    then return A[p]

3  q<--RANDOMIZED-PARTITION(A,p,r)

4  k<--q-p+1

5  if i=k

6    then return A[q]

7  elseif i<k

8    then return RANDOMIZED-SELECT(A,p,q-1,i)

9 else return RANDOMIZED-SELECT(A,q+1,r,i-k)

 

RANDOMIZED-PARTITION就是快速排序算法中的partition过程。

RANDOMIZED-SELECT的最坏运行时间是n2。期望运行时间为n。

 

思考题:

9-2带权中位数

对分别具有正的权重w1,w2,...,wn且∑wi=1的n个不同元素x1,x2,...,xn,带权中位数是满足如下条件的元素xk:∑(xi<xk)<1/2且∑(xi>xk)<=1/2。

a)论证如果wi=1/n,那么x1,x2,x3...,xn的中位数即是带权中位数。

假设集合xi的中位数为xk,满足xi<xk的元素个数和xi>xk的元素个数都约为n/2。所以满足带权中位数的定义。

b)说明如何通过排序求出n个元素的带权中位数。

对xi进行排序,依照排序后的顺序依次计算前k个权重的和。当第一次计算到某个位置发现权重和大于或等于1/2时,xk就为带权中位数。

c)说明如何利用一的中位数算法,来求带权中位数。

以RANDOMIZED-SELECT算法为例,我们以对xi的快速排序算法为基础,区别在于,我们不是寻找第k大的数,而是寻找使∑(xi<=xk)>=m满足的最小k位置。算法可以从RANDOMIZED-SELECT修改而来。

WRANDOMIZED-SELECT(A,p,r,m)

1  if p=r

2    then return A[p]

3  q<--RANDOMIZED-PARTITION(A,p,r)

4  计算A[p...q]的权重和m'

5  if m=m'

6    then return A[q]

7  elseif m<m'

8    then return WRANDOMIZED-SELECT(A,p,q-1,m)

9 else return WRANDOMIZED-SELECT(A,q+1,r,m'-m)

 

 

邮局位置问题:已知n个点p1,p2,...,pn即它们相练习的权重w1,w2,...,wn。我们希望能找到一点p(不一定是输入点中的一个),使得何时∑wiD(p,pi)最小,此处D(a,b)表示点a与b之间的距离。

 

d)证明带权中位数是一维邮局位置问题的最佳解决方案,其中所有的点都是实数。一维意味着d(a,b)=|a-b|。

首先证明p点必然可以是输入点中的一点,采用反证法:假设p是pk和pk+1之间的一点。如果∑(i=1~k)wi>=1/2,那么pk点将是一个更优(或同优)的点,pk+1将是一个更优的点。在再证明带权中位数就是最优点,同样采用反证法:假设pk是带权中位点,那么对于如果选取pl(l<k),那么由于∑(i=1~l)wi<1/2,那么pl+1是一个更优的点。如果选取pm(m>k),那么由于∑(i=m~l)wi<1/2,那么pm-1是一个更优的点。

 

e)找出二维邮局位置问题的最佳解答。其中所有的点都是(x,y)坐标对,并且点a(x1,y1)和b(x2,y2)之间的距离是Manhanttan距离:d(a,b) = |x1-x2|+|y1-y2|。

只要分别从x1,x2,...,xn和y1,y2,...,yn找出带权中位数xi,yj。那么点(xi,yj)就是最佳位置。

 

posted on 2010-11-20 23:19  longhuihu  阅读(280)  评论(0编辑  收藏  举报