摘要: 假设数据规模为n,采样为k, 蓄水池采样算法是针对大数据集或者数据规模不确定的算法:空间为k,时间为n, 先选取数据流中的前k个元素,保存在集合A中; 从第j(k + 1 <= j <= n)个元素开始,每次先以概率p = k/j选择是否让第j个元素留下。若j被选中,则从A中随机选择一个元素并用该元 阅读全文
posted @ 2019-03-01 10:17 Joel_Wang 阅读(293) 评论(0) 推荐(0) 编辑