Python On Spark的执行流程
分布式代码执行的重要特征?
代码在集群上运行,是被分布式运行的。
在Spark中,非任务处理部分由Driver执行(非RDD代码)
任务处理部分是由Executor执行(RDD代码)
Executor的数量可以很多,所以任务的计算是分布式在运行的。
Pyspark的架构体系?
Python On Spark Driver端由JVM执行,Executor端由JVM做命令转发,底层由Python解释器进行工作。
RDD?
RDD叫做弹性分布式数据集,是Spark中最基本的数据抽象,代表一个不可变、可分区、里面的元素可并行计算的集合。
五大特征:
1..RDD是有分区的
2.计算方法都会作用到每一个分区之上
3.RDD之间室友相互依赖关系的
4.KV型RDD可以有分区器
5.RDD分区数据的读取会尽量靠近数据所在地
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· Ollama——大语言模型本地部署的极速利器
· 使用C#创建一个MCP客户端
· 分享一个免费、快速、无限量使用的满血 DeepSeek R1 模型,支持深度思考和联网搜索!
· Windows编程----内核对象竟然如此简单?
· ollama系列1:轻松3步本地部署deepseek,普通电脑可用