摘要: 窄依赖与宽依赖的区别: 窄依赖:表现为一个父RDD的分区对应于一个子RDD的分区或多个父RDD的分区对应于一个子RDD的分区 宽依赖:表现为存在一个父RDD的一个分区对应一个子RDD的多个分区 Stage的划分: Spark通过分析各个RDD的依赖关系生成了DAG再通过分析各个RDD中的分区之间的依 阅读全文
posted @ 2022-01-20 12:38 风吹过半夏 阅读(94) 评论(0) 推荐(0) 编辑
摘要: 设计背景: 许多迭代式算法(比如机器学习、图算法等)和交互式数据挖掘工具,共同之处是,不同计算阶段之间会重用中间结果 目前的MapReduce框架都是把中间结果写入到HDFS中,带来大量的数据复制、磁盘I0和序列化开销 RDD就是为了满足这种需求而出现的,它提供了一个抽象的数据架构 我们不必担心底层 阅读全文
posted @ 2022-01-20 12:20 风吹过半夏 阅读(36) 评论(0) 推荐(0) 编辑