会员
周边
众包
新闻
博问
闪存
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
skaarl
博客园
首页
新随笔
联系
订阅
管理
2020年10月29日
Spark性能调优的方法
摘要: 原则一:避免创建重复的RDD 通常来说,我们在开发一个Spark作业时,首先是基于某个数据源(比如Hive表或HDFS文件)创建一个初始的RDD;接着对这个RDD执行某个算子操作,然后得到下一个RDD;以此类推,循环往复,直到计算出最终我们需要的结果。在这个过程中,多个RDD会通过不同的算子操作(比
阅读全文
posted @ 2020-10-29 21:45 skaarl
阅读(916)
评论(0)
推荐(0)
编辑
公告