SparkSQL的自动优化

RDD的运行会完全按照开发者的代码执行, 如果开发者水平有限,RDD的执行效率也会受到影响。
而SparkSQL会对写完的代码,执行“自动优化”, 以提升代码运行效率,避免开发者水平影响到代码执行效率。
为什么SparkSQL可以自动优化而RDD不可以?
RDD:内含数据类型不限格式和结构
DataFrame:100% 是二维表结构,可以被针对。
SparkSQL的自动优化,依赖于:Catalyst优化器
posted @ 2024-02-01 16:40  阿飞藏泪  阅读(4)  评论(0编辑  收藏  举报
1 2 3
4