8.2 分布式代码执行分析
所以对于刚刚的WordCount代码,简单分析后得知:
SparkContext对象的构建 以及 Spark程序的退出, 由 Driver 负责执行
具体的数据处理步骤, 由Executor在执行.
其实简单来说就是:
非数据处理的部分由Driver工作
数据处理的部分(干活)由Executor工作
要知道: Executor不仅仅是一个, 视集群规模,Executor的数量可以是很多的.
那么在这里一定要有一个概念: 代码中的数据处理部分,是由非常多的服务器(Executor)执行的.
这也是分布式代码执行的概念
分布式代码执行的重要特征是什么?
代码在集群上运行, 是被分布式运行的.
在Spark中, 非任务处理部分由Driver执行(非RDD代码) 任务处理部分由Executor执行(RDD代码).
Executor的数量可以很多,所以任务的计算是分布式在运行的.
简述PySpark的架构体系
Python On Spark Driver端由JVM执行, Executor端由JVM做命令转发, 底层由 Python解释器进行工作
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 单线程的Redis速度为什么快?
· SQL Server 2025 AI相关能力初探
· AI编程工具终极对决:字节Trae VS Cursor,谁才是开发者新宠?
· 展开说说关于C#中ORM框架的用法!