1/14 学习进度笔记 - 云云云云云云云云

Python On Spark的执行流程

分布式代码执行的重要特征？

代码在集群上运行，是被分布式运行的。

在Spark中，非任务处理部分由Driver执行（非RDD代码）

任务处理部分是由Executor执行（RDD代码）

Executor的数量可以很多，所以任务的计算是分布式在运行的。

Pyspark的架构体系？

Python On Spark Driver端由JVM执行，Executor端由JVM做命令转发，底层由Python解释器进行工作。

RDD？

RDD叫做弹性分布式数据集，是Spark中最基本的数据抽象，代表一个不可变、可分区、里面的元素可并行计算的集合。

五大特征：

1..RDD是有分区的

2.计算方法都会作用到每一个分区之上

3.RDD之间室友相互依赖关系的

4.KV型RDD可以有分区器

5.RDD分区数据的读取会尽量靠近数据所在地

发表于 2024-01-14 17:39 云云云云云云云云阅读(4) 评论(0) 编辑收藏举报