spark并行度
推荐全局并行度;集群中的 并行度设置为cpu总核心的2~10倍;规划并行度,只看集群总cpu核数
5.spark的任务调度
sparkde任务,由driver进行调度,这个工作包含:逻辑DAG产生、分区DAg产生、task划分、将task分配给executor并监控其工作
DAG调度器:讲逻辑的dAG图进行处理,最终得到逻辑上的task划分
task调度器:基于DAG Scheduler的产出,来规划这些逻辑的task,应该放在那些无力的executor上运行,以及监控管理他们的运行
6.层次关系梳理
一个spark环境可以运行多个application
一个代码运行起来,会成为一个application
application内部可以有多个job
每个job由一个action产生,并且每个job有自己的DAg执行图
一个job的dag图会基于宽窄依赖划分成不同的阶段
不同阶段内基于分区数量,形成多个并行的内存迭代管道
每一个内存迭代管道形成一个task
推荐全局并行度;集群中的 并行度设置为cpu总核心的2~10倍;规划并行度,只看集群总cpu核数
5.spark的任务调度
sparkde任务,由driver进行调度,这个工作包含:逻辑DAG产生、分区DAg产生、task划分、将task分配给executor并监控其工作
DAG调度器:讲逻辑的dAG图进行处理,最终得到逻辑上的task划分
task调度器:基于DAG Scheduler的产出,来规划这些逻辑的task,应该放在那些无力的executor上运行,以及监控管理他们的运行
6.层次关系梳理
一个spark环境可以运行多个application
一个代码运行起来,会成为一个application
application内部可以有多个job
每个job由一个action产生,并且每个job有自己的DAg执行图
一个job的dag图会基于宽窄依赖划分成不同的阶段
不同阶段内基于分区数量,形成多个并行的内存迭代管道
每一个内存迭代管道形成一个task
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 单线程的Redis速度为什么快?
· SQL Server 2025 AI相关能力初探
· AI编程工具终极对决:字节Trae VS Cursor,谁才是开发者新宠?
· 展开说说关于C#中ORM框架的用法!