yetang307

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理
当优化器在编译时无法识别可跳过的分区时,可以使用"动态分区裁剪",即基于运行时推断的信息来进一步进行分区
裁剪。这在星型模型中很常见,星型模型是由一个或多个并且引用了任意数量的维度表的事实表组成。在这种连接操
作中,我们可以通过识别维度表过滤之后的分区来裁剪从事实表中读取的分区。在一个TPC-DS基准测试中,102个查
询中有60个查询获得2到18倍的速度提升。
1. AQE的开启通过: spark.sql.adaptive.enabled 设置
为true开启,触发后极大提升SparkSQL计算性能
2. 动态分区裁剪可以让我们更好的优化运行时分区内
数据的量级. 通过动态的谓词下推来获取传统静态谓
词下推无法获得的更高过滤属性, 减少操作的分区数
据量以提高性能.
3. 新版Koalas类库可以让我们写Pandas API(Koalas提
供)然后将它们运行在分布式的Spark环境上,
Pandas开发者也能快速上手Spark
posted on 2024-02-03 22:36  椰糖  阅读(4)  评论(0编辑  收藏  举报