摘要: .catalyst优化点 谓词下推、断言下推:讲逻辑判断提前到前面,以减少shuffle阶段的数据量 列值裁剪:将加载的列进行裁剪,尽量减少被处理数据的密度3.sparksql的执行流程 提交sparksql代码 catalyst优化 drive执行环境入口搭建 DAG调度器规划逻辑任务 task调 阅读全文