蓄水池算法:N个元素中随机的抽取k个元素

蓄水池算法

问题描述

要求从N个元素中随机的抽取k个元素,其中N无法确定(N是个流,可能无穷大)。

这种应用的场景一般是数据流的情况下,由于数据只能被读取一次,而且数据量很大,并不能全部保存,因此数据量N是无法在抽样开始时确定的;但又要保持随机性,于是有了这个问题。所以搜索网站有时候会问这样的问题。

这里的核心问题就是“随机”,怎么才能是随机的抽取元素呢?我们设想,买彩票的时候,由于所有彩票的中奖概率都是一样的,所以我们才是“随机的”买彩票。那么要使抽取数据也随机,必须使每一个数据被抽样出来的概率都一样。

解决方案

解决方案就是蓄水库抽样(reservoid sampling)。主要思想就是保持一个集合(这个集合中的每个数字出现),作为蓄水池,依次遍历所有数据的时候以一定概率替换这个蓄水池中的数字。

1、程序的开始就是把前k个元素都放到水库中。

2、从第k+1个开始,以k/i的概率替换掉这个水库中的某一个元素。

算法伪代码

 

1 Init : a reservoir with the size: N

 

2 for i= N+1 to M

 

3 k=random(1, i);

 

4 if( M < N)

 

5 SWAP the kth value and ith value(替换先前抽样的k-库)

 

6 end for

原文:http://www.kuqin.com/algorithm/20120717/322714.html

posted @ 2013-03-18 01:58  busyfruit  阅读(495)  评论(0编辑  收藏  举报