会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
wxplmm
--- 看山是山 看山不是山 看山仍是山
博客园
首页
新随笔
联系
订阅
管理
2019年1月16日
取数据超过内存限制的问题-解决方案(sample,takeSample,filter)
摘要: 遇到的问题 在处理数据过程中,遇到需要取(n)个数的问题,而当样本量过大的时候,就不能简单的take(n),这类问题一般有两种情况: 有序取 TopN 无序取 N 先来讨论 无序取N 的情况: sample 函数 sample(boolean, fraction,seed) : 按比例抽取 返回一个
阅读全文
posted @ 2019-01-16 14:26 wxplmm
阅读(824)
评论(0)
推荐(0)
编辑
公告
点击右上角即可分享