海量数据处理之蓄水池抽样算法

一、问题由来

      这个题目的由来是在《编程珠玑》里遇到的,故记录一下。还可以这么说,”如何从二进制文件中等概率取整数?”或者”在不知道文件总行数的情况下,如何从文件中随机的抽取一行?”这个题目说的有点不清楚实际上是:一个二进制文件中有好多好多整数,你要随机取出一个。

      这个问题的难点就在于你开始不知道有多少的整数,也就是说这个(1/n)你不知道n是多少。   

      综上,随机抽样问题表示如下:要求从N个元素中随机的抽取k个元素,其中N无法确定。

      这种应用的场景一般是数据流的情况下,由于数据只能被读取一次,而且数据量很大,并不能全部保存,因此数据量N是无法在抽样开始时确定的;但又要保持随机性,于是有了这个问题。所以搜索网站有时候会问这样的问题。

      这里的核心问题就是“随机”,怎么才能是随机的抽取元素呢?我们设想,买彩票的时候,由于所有彩票的中奖概率都是一样的,所以我们才是“随机的”买彩票。那么要使抽取数据也随机,必须使每一个数据被抽样出来的概率都一样。

二、算法实现

 

array R[k];    // result
 integer i, j;
 

 for each i in 1 to k do
     R[i] := S[i]
 done;
 
 for each i in k+1 to length(S) do
     j := random(1, i);   // important: inclusive range
     if j <= k then
        R[j] := S[i]
     fi
 done

 

posted @ 2015-01-15 17:26  加拿大小哥哥  阅读(499)  评论(2编辑  收藏  举报