1.分布式代码执行的重要特征
代码在集群上运行,是分布式运行的
在spark中,非任务处理部分由driver执行(非rdd代码)
任务处理部分由executor执行(rdd代码)
executor的数量可以很多,所以人物的计算是分布式在运行的
2.pyspark的架构体系
python on spark driver 端由jvm执行,executor端由jvm命令转发,底层由python解释器进行工作
Spark core
代码在集群上运行,是分布式运行的
在spark中,非任务处理部分由driver执行(非rdd代码)
任务处理部分由executor执行(rdd代码)
executor的数量可以很多,所以人物的计算是分布式在运行的
2.pyspark的架构体系
python on spark driver 端由jvm执行,executor端由jvm命令转发,底层由python解释器进行工作
Spark core