1.30学习进度 - zhangmingmingkjz

.catalyst优化点

    谓词下推、断言下推：讲逻辑判断提前到前面，以减少shuffle阶段的数据量
    列值裁剪：将加载的列进行裁剪，尽量减少被处理数据的密度

3.sparksql的执行流程

    提交sparksql代码
    catalyst优化
    drive执行环境入口搭建
    DAG调度器规划逻辑任务
    task调度去分配洛级人物到具体executor上工作并监控管理任务
    worker干活

4.dataframe代码在被优化，最终被转换成rdd取执行

5.spark on hive因为spark自身没有元数据管理的功能，所以使用hive的metastore服务作为元数据管理服务。计算由spark执行，执行引擎是sparksql。

发表于 2024-01-30 17:36 zhangmingmingkjz 阅读(3) 评论(0) 编辑收藏举报