1.分布式代码执行的重要特征

代码在集群上运行,是分布式运行的

在spark中,非任务处理部分由driver执行(非rdd代码)

任务处理部分由executor执行(rdd代码)

executor的数量可以很多,所以人物的计算是分布式在运行的

2.pyspark的架构体系

python on spark driver 端由jvm执行,executor端由jvm命令转发,底层由python解释器进行工作

Spark core