会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
~(',D)=I一<
博客园
|
首页
|
新随笔
|
新文章
|
联系
|
订阅
|
管理
2020年3月14日
Spark 宽依赖与窄依赖
摘要: 原始的RDD通过一系列的转换就就形成了DAG,根据RDD之间的依赖关系的不同将DAG划分成不同的Stage(按宽依赖划分Stage) 窄依赖是指父类分区的数据,被子类RDD中的指定的唯一一个分区消费 宽依赖就是子类的分区的数据,要依赖多个父类RDD的分区,由于有Shuffle的存在,只能在paren
阅读全文
posted @ 2020-03-14 21:58 星不予
阅读(737)
评论(0)
推荐(0)
编辑
Spark Persist与Cache checkpoint
摘要: 1.为什么要Cache / persist 由于spark中的RDD都是只读不可变的对象,也就是RDD的每一个transformation操作都会产生一个新的RDD。所以Spark任务中的一个优化原则就是避免创建重复的RDD而尽量复用同一个RDD。 当迭代使用到一个RDD的时候,我们不希望它重新从头
阅读全文
posted @ 2020-03-14 20:47 星不予
阅读(450)
评论(0)
推荐(0)
编辑
公告