2019 年 9月 4 日随笔档案 - 北漂屌丝

2019年9月4日

摘要： Spark目前支持Hash分区和Range分区，用户也可以自定义分区，Hash分区为当前的默认分区，Spark中分区器直接决定了RDD中分区的个数、RDD中每条数据经过Shuffle过程属于哪个分区和Reduce的个数只有Key-Value类型的RDD才有分区器的，非Key-Value类型的RDD 阅读全文

posted @ 2019-09-04 08:31 北漂屌丝阅读(631) 评论(0) 推荐(0) 编辑

reduceByKey和groupByKey的区别

摘要： reduceByKey：按照key进行聚合，在shuffle之前有combine（预聚合）操作，返回结果是RDD[k,v] groupByKey：按照key进行分组，直接进行shuffle 建议使用reduceByKey。但是需要注意是否会影响业务逻辑 reduceByKey：按照key进行聚合，在阅读全文

posted @ 2019-09-04 07:55 北漂屌丝阅读(789) 评论(0) 推荐(0) 编辑

coalesce和repartition的区别

摘要： coalesce重新分区，可以选择是否进行shuffle过程。由参数shuffle: Boolean = false/true决定 repartition实际上是调用的coalesce，默认是进行shuffle的阅读全文

posted @ 2019-09-04 07:45 北漂屌丝阅读(1089) 评论(0) 推荐(0) 编辑

beipiaodiaosi