随笔- 153 文章- 1 评论- 4 阅读- 49万

Spark SQL的运行原理

DataFrame、DataSet 和 Spark SQL 的实际执行流程都是相同的：

1.进行 DataFrame/Dataset/SQL 编程；
2.如果是有效的代码，即代码没有编译错误，Spark 会将其转换为一个逻辑计划；
3.Spark 将此逻辑计划转换为物理计划，同时进行代码优化；
4.Spark 然后在集群上执行这个物理计划 (基于 RDD 操作) 。

4.1 逻辑计划(Logical Plan)

执行的第一个阶段是将用户代码转换成一个逻辑计划。它首先将用户代码转换成 unresolved logical plan(未解决的逻辑计划)，之所以这个计划是未解决的，是因为尽管您的代码在语法上是正确的，但是它引用的表或列可能不存在。 Spark 使用 analyzer(分析器) 基于 catalog(存储的所有表和 DataFrames 的信息) 进行解析。解析失败则拒绝执行，解析成功则将结果传给 Catalyst 优化器 (Catalyst Optimizer)，优化器是一组规则的集合，用于优化逻辑计划，通过谓词下推等方式进行优化，最终输出优化后的逻辑执行计划

4.2 物理计划(Physical Plan)

得到优化后的逻辑计划后，Spark 就开始了物理计划过程。它通过生成不同的物理执行策略，并通过成本模型来比较它们，从而选择一个最优的物理计划在集群上面执行的。物理规划的输出结果是一系列的 RDDs 和转换关系 (transformations)。

4.3 执行

在选择一个物理计划后，Spark 运行其 RDDs 代码，并在运行时执行进一步的优化，生成本地 Java 字节码，最后将运行结果返回给用户。

posted @ 2024-01-19 17:13 会飞的猪仔阅读(92) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

相关博文：

· 理解 RDD、DataFrame、DataSet、DStream

· spark streaming简介

· 大数据组件--SparkSQL（一条SQL在Spark之旅）

· Spark SQL底层执行流程详解

· 01_spark入门

阅读排行：
· 震惊！C++程序真的从main开始吗？99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码？零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾（3.3-3.9）
· winform 绘制太阳，地球，月球运作规律

公告

昵称：会飞的猪仔
园龄： 8年6个月
粉丝： 20
关注： 3

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论

1. Re:LengthFieldBasedFrameDecoder解析
找了一圈就博主这个是最通俗易懂得！第一次赞，第一次评论！
--很牛很牛的牛
2. Re:window.location.href的用法
window.location.href
--puz_zle
3. Re:在cmd下执行mvn help:system 报错
你多打了个斜杠害死人
--天忍血脉
4. Re:什么是Kmp算法？
大神能把这题链接发一下吗
--Tate125
5. Re:什么是Kmp算法？
大神的图文讲解非常好，把PMK的核心讲的很透彻，学习了
--bincalm