qwb0614

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理
  187 随笔 :: 0 文章 :: 0 评论 :: 2048 阅读

 

 8.2 分布式代码执行分析

所以对于刚刚的WordCount代码,简单分析后得知:

 SparkContext对象的构建 以及 Spark程序的退出, 由 Driver 负责执行

 具体的数据处理步骤, 由Executor在执行.

其实简单来说就是:

 非数据处理的部分由Driver工作

 数据处理的部分(干活)由Executor工作

要知道: Executor不仅仅是一个, 视集群规模,Executor的数量可以是很多的.

那么在这里一定要有一个概念: 代码中的数据处理部分,是由非常多的服务器(Executor)执行的.

这也是分布式代码执行的概念

分布式代码执行的重要特征是什么?

代码在集群上运行, 是被分布式运行的.

在Spark中, 非任务处理部分由Driver执行(非RDD代码) 任务处理部分由Executor执行(RDD代码).

Executor的数量可以很多,所以任务的计算是分布式在运行的.

简述PySpark的架构体系

Python On Spark Driver端由JVM执行, Executor端由JVM做命令转发, 底层由 Python解释器进行工作

 

posted on   嘎嘎鸭1  阅读(5)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 单线程的Redis速度为什么快?
· SQL Server 2025 AI相关能力初探
· AI编程工具终极对决:字节Trae VS Cursor,谁才是开发者新宠?
· 展开说说关于C#中ORM框架的用法!
点击右上角即可分享
微信分享提示