.catalyst优化点

    谓词下推、断言下推:讲逻辑判断提前到前面,以减少shuffle阶段的数据量
    列值裁剪:将加载的列进行裁剪,尽量减少被处理数据的密度

3.sparksql的执行流程

    提交sparksql代码
    catalyst优化
    drive执行环境入口搭建
    DAG调度器规划逻辑任务
    task调度去分配洛级人物到具体executor上工作并监控管理任务
    worker干活

4.dataframe代码在被优化,最终被转换成rdd取执行

5.spark on hive因为spark自身没有元数据管理的功能,所以使用hive的metastore服务作为元数据管理服务。计算由spark执行,执行引擎是sparksql。