原理介绍:

  并行度:其实就是指的是,spark作业中,各个stage的task数量,也代表了spark作业做得各个阶段的stage的并行度

设置参数:

  spark.default.parallelism 官网推荐 此参数设置成cpu core数量的2~3倍,比如150个cpu core,分配了150个task,那么这个参数基本要设置为300~500

  

 

posted on 2018-05-14 12:19  大漠无影  阅读(192)  评论(0编辑  收藏  举报