| | | | |

2020年3月14日

摘要：原始的RDD通过一系列的转换就就形成了DAG，根据RDD之间的依赖关系的不同将DAG划分成不同的Stage（按宽依赖划分Stage）窄依赖是指父类分区的数据，被子类RDD中的指定的唯一一个分区消费宽依赖就是子类的分区的数据，要依赖多个父类RDD的分区，由于有Shuffle的存在，只能在paren 阅读全文

posted @ 2020-03-14 21:58 星不予阅读(737) 评论(0) 推荐(0) 编辑

Spark Persist与Cache checkpoint

摘要： 1.为什么要Cache / persist 由于spark中的RDD都是只读不可变的对象，也就是RDD的每一个transformation操作都会产生一个新的RDD。所以Spark任务中的一个优化原则就是避免创建重复的RDD而尽量复用同一个RDD。当迭代使用到一个RDD的时候，我们不希望它重新从头阅读全文

posted @ 2020-03-14 20:47 星不予阅读(450) 评论(0) 推荐(0) 编辑

2020年3月14日

公告