摘要: 概要 Spark RDD主要由Dependency、Partition、Partitioner组成,Partition是其中之一。一份待处理的原始数据会被按照相应的逻辑(例如jdbc和hdfs的split逻辑)切分成n份,每份数据对应到RDD中的一个Partition,Partition的数量决定了 阅读全文
posted @ 2018-09-14 08:48 大数据从业者FelixZh 阅读(1355) 评论(0) 推荐(1) 编辑
摘要: http://stark-summer.iteye.com/blog/2178096 RDD的核心方法: 首先看一下getPartitions方法的源码: getPartitions返回的是一系列partitions的集合,即一个Partition类型的数组 我们就想进入HadoopRDD实现: 1 阅读全文
posted @ 2018-09-14 08:42 大数据从业者FelixZh 阅读(823) 评论(0) 推荐(0) 编辑