【大数据算法】蓄水池抽样算法

一、题目来源:

    这个题目的由来是周围有人讨论到去面试(某8)的时候遇到了这个问题。另外正好HIT有个视频也有这个内容,故记录一下:

二、题目描述
    该人面试的时候问的是:
  1. 如何从二进制文件中等概率取整数?
    这个题目说的有点不清楚实际上是:一个二进制文件中有好多好多整数,你要随机取出一个。
三、题目分析
    这个问题的难点就在于你开始不知道有多少的整数,也就是说这个(1/n)你不知道n是多少。    
    这里我们要用到蓄水池抽样算法,这个算法的思想很简单,我们待会再看,先看上面的题目。
四、题目解法
    1)解法如下:
首先我们取到第一个数(暂时取的最后要不要还不一定呢),然后对第二个数以1/2的概率来确定是否                    用第二个数来替换他,然后对第二个数以1/3的概率来确定是否用第三个数来替换他。。。。一直这样下去直到第n个数。
经过上面的这个过程我们发现每个数取到的概率都变成了(1/n)。证明如下:

总结起来就是一句话每个数取到的概率等于取到该数且取不到该数后面所有数的概率
如:取到第10个数的概率等于取到第十个数且取不到第11到第n个数的概率
现在我们回到较复杂的情况,也就是如何在一个N个数(开始不知道N是几)中随机取M个数。其实思想是一样的,就是先取出前M个,然后对后面的开始每个以(k/(i))的概率进行替换,这样我们得到的就是所要的结果,证明如下:

五、题目实现
OK!下面是python的代码实现
 
  1.  1 import random
     2 import copy
     3  
     4 def reservoirSampling(seq, k):
     5     localSeq = copy.deepcopy(seq)
     6     N = len(localSeq)   
     7     for i in xrange(k, N):
     8         M = int(random.uniform(0, i))
     9         if M < k :
    10             temp = copy.deepcopy(localSeq[M])
    11             localSeq[M] = copy.deepcopy(localSeq[i])
    12             localSeq[i] = temp
    13     return localSeq[0:k]
    14 def main():
    15     a = [4,5,6,3,4,7,7,4,3,3,2,4,5,5,6,9,5,4,3,45,3,23,44,55,33,5,8]
    16     k = 5
    17     print reservoirSampling(a, k)
    18 if __name__ == '__main__':
    19     main()
六、总结归纳
怎么说呢,实在是太佩服这个想法了,好好学习领悟吧。
 



posted @ 2014-11-21 16:40  mrbean  阅读(5439)  评论(3编辑  收藏  举报