会员
周边
众包
新闻
博问
闪存
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
温家三哥
学我所学,爱我所学,人生旅途,面朝大海,春暖花开。
博客园
首页
新随笔
联系
订阅
管理
2020年12月15日
Hive实现数据抽样的三种方法
摘要: 在大规模数据量的数据分析及建模任务中,往往针对全量数据进行挖掘分析时会十分耗时和占用集群资源,因此一般情况下只需要抽取一小部分数据进行分析及建模操作。Hive提供了数据取样(SAMPLING)的功能,能够根据一定的规则进行数据抽样,目前支持数据块抽样,分桶抽样和随机抽样,具体如下所示: 数据块抽样(
阅读全文
posted @ 2020-12-15 15:36 温家三哥
阅读(3677)
评论(0)
推荐(0)
编辑
公告