会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
Snny Bill
博客园
首页
新随笔
联系
管理
订阅
2019年6月22日
大数据开发之调优
摘要: 1.1避免创建重复RDD 通常指,在开发spark作业中,首先基于某个数据源,(如hive或hdfs文件)创建一个初始RDD,接着对这个RDD进行某个算子操作,然后得到下一个RDD,以此类推,循环往复,直到计算出我们需要的结果;在此过程中多个RDD会通过不同算子操作串起来。这个RDD串 `RDD l
阅读全文
posted @ 2019-06-22 13:56 Sonnyb
阅读(199)
评论(0)
推荐(0)
编辑
公告