寒假学习 - 椰糖

bypass运行机制的触发条件如下：

1)shuffle map task数量小于spark.shuffle.sort.bypassMergeThreshold=200参数的值。

2)不是map combine聚合的shuffle算子(比如reduceByKey有map combie)

总结：

 SortShuffle也分为普通机制和bypass机制

 普通机制在内存数据结构(默认为5M)完成排序，会产生2M个磁盘小文件。

 而当shuffle map task数量小于spark.shuffle.sort.bypassMergeThreshold参数的值。或者算子不是聚合类的

shuffle算子(比如reduceByKey)的时候会触发SortShuffle的bypass机制，SortShuffle的bypass机制不会进行排序

，极大的提高了其性能。

Shuffle的配置选项

Shuffle阶段划分：

shuffle write：mapper阶段，上一个stage得到最后的结果写出

shuffle read ：reduce阶段，下一个stage拉取上一个stage进行合并

posted on 2024-01-23 23:09 椰糖阅读(3) 评论(0) 编辑收藏举报

刷新页面返回顶部

yetang307