yetang307

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理
1. DataFrame因为存储的是二维表数据结构,可以被针对,所以可以
自动优化执行流程。
2. 自动优化依赖Catalyst优化器
3. 自动优化2个大的优化项是:1. 断言(谓词)下推(行过滤) 2. 列
值裁剪(列过滤)
4. DataFrame代码在被优化有,最终还是被转换成RDD去执行
Spark On Hive 就是因为Spark自身没有元数据管理功能, 所以使用
Hive的Metastore服务作为元数据管理服务。计算由Spark执行。
1. SortShuffle对比HashShuffle可以减少很多的磁盘
文件,以节省网络IO的开销
2. SortShuffle主要是对磁盘文件进行合并来进行文件
数量的减少, 同时两类Shuffle都需要经过内存缓冲区
溢写磁盘的场景. 所以可以得知, 尽管Spark是内存迭
代计算框架, 但是内存迭代主要在窄依赖中. 在宽依
赖(Shuffle)中磁盘交互还是一个无可避免的情况. 所
以, 我们要尽量减少Shuffle的出现, 不要进行无意义
的Shuffle计算
posted on 2024-01-30 22:52  椰糖  阅读(9)  评论(0编辑  收藏  举报