top-N 抽样

1，使用hive标记random：（如果是mr，就自己标记random值）

use ps;

set mapred.job.priority=VERY_HIGH;
set mapred.job.map.capcity=300;
set mapred.reduce.tasks=200;

insert overwrite directory "*"

select url, count(1), min(link_found_time), rand()
from entry
where *='20151106'

group by url;

2，数据抽样：

在各个分区各使用小顶推实现top-N，

3，得到top-N

TopN：使用小顶堆实现。

posted on 2016-02-16 13:16 雨渐渐阅读(211) 评论(0) 编辑收藏举报

刷新页面返回顶部

雨渐渐