RDD基础----RDD的五大特性、spark WordCount流程图

RDD基础----RDD的五大特性、spark WordCount流程图

RDD:弹性的分布式数据集,可以理解为一个分布式的List集合

RDD:ResilientDistributedDataset
Rdd默认没有数据,它是一个抽象的编程模型

1、RDD的五大特性

(1)由一系列的分区组成。默认一个block对应一个分区
(2)算子是作用在每个分区上面的,每个分区对应一个task
(3)RDD之间有一系列的依赖关系
	有shuff----宽依赖
	无shuff----窄依赖
(4)分区类的算子只能作用在k-v格式的RDD上
(5)spark为task的计算提供了最佳计算位置。
	移动计算而不是移动数据,spark会尽量将task发送到数据所在的节点上执行

2、spark WordCount流程图

posted @ 2022-03-07 22:33  阿伟宝座  阅读(301)  评论(0)    收藏  举报