.catalyst优化点
谓词下推、断言下推:讲逻辑判断提前到前面,以减少shuffle阶段的数据量
列值裁剪:将加载的列进行裁剪,尽量减少被处理数据的密度
3.sparksql的执行流程
提交sparksql代码
catalyst优化
drive执行环境入口搭建
DAG调度器规划逻辑任务
task调度去分配洛级人物到具体executor上工作并监控管理任务
worker干活
4.dataframe代码在被优化,最终被转换成rdd取执行
5.spark on hive因为spark自身没有元数据管理的功能,所以使用hive的metastore服务作为元数据管理服务。计算由spark执行,执行引擎是sparksql。
谓词下推、断言下推:讲逻辑判断提前到前面,以减少shuffle阶段的数据量
列值裁剪:将加载的列进行裁剪,尽量减少被处理数据的密度
3.sparksql的执行流程
提交sparksql代码
catalyst优化
drive执行环境入口搭建
DAG调度器规划逻辑任务
task调度去分配洛级人物到具体executor上工作并监控管理任务
worker干活
4.dataframe代码在被优化,最终被转换成rdd取执行
5.spark on hive因为spark自身没有元数据管理的功能,所以使用hive的metastore服务作为元数据管理服务。计算由spark执行,执行引擎是sparksql。