分布式代码执行分析-寒假笔记 - 嘎嘎鸭1

昵称：嘎嘎鸭1
园龄： 2年8个月
粉丝： 1
关注： 2

8.2 分布式代码执行分析

所以对于刚刚的WordCount代码,简单分析后得知:

 SparkContext对象的构建以及 Spark程序的退出, 由 Driver 负责执行

 具体的数据处理步骤, 由Executor在执行.

其实简单来说就是:

 非数据处理的部分由Driver工作

 数据处理的部分(干活)由Executor工作

要知道: Executor不仅仅是一个, 视集群规模,Executor的数量可以是很多的.

那么在这里一定要有一个概念: 代码中的数据处理部分,是由非常多的服务器(Executor)执行的.

这也是分布式代码执行的概念

分布式代码执行的重要特征是什么?

代码在集群上运行, 是被分布式运行的.

在Spark中, 非任务处理部分由Driver执行(非RDD代码) 任务处理部分由Executor执行(RDD代码).

Executor的数量可以很多,所以任务的计算是分布式在运行的.

简述PySpark的架构体系

Python On Spark Driver端由JVM执行, Executor端由JVM做命令转发, 底层由 Python解释器进行工作

posted on 2024-01-13 13:18 嘎嘎鸭1 阅读(5) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· spark基础了解-寒假笔记

· spark部署-寒假笔记

· 分布式代码执行分析

· 125学习总结

· 1/14 学习进度笔记

阅读排行：
· 阿里最新开源QwQ-32B，效果媲美deepseek-r1满血版，部署成本又又又降低了！
· 单线程的Redis速度为什么快？
· SQL Server 2025 AI相关能力初探
· AI编程工具终极对决：字节Trae VS Cursor，谁才是开发者新宠？
· 展开说说关于C#中ORM框架的用法！

qwb0614