Python On Spark的执行流程

 

分布式代码执行的重要特征?

代码在集群上运行,是被分布式运行的。

在Spark中,非任务处理部分由Driver执行(非RDD代码)

任务处理部分是由Executor执行(RDD代码)

Executor的数量可以很多,所以任务的计算是分布式在运行的。

Pyspark的架构体系?

Python On Spark Driver端由JVM执行,Executor端由JVM做命令转发,底层由Python解释器进行工作。

RDD?

RDD叫做弹性分布式数据集,是Spark中最基本的数据抽象,代表一个不可变、可分区、里面的元素可并行计算的集合。

五大特征:

1..RDD是有分区的

2.计算方法都会作用到每一个分区之上

3.RDD之间室友相互依赖关系的

4.KV型RDD可以有分区器

5.RDD分区数据的读取会尽量靠近数据所在地