摘要: Spark目前支持Hash分区和Range分区,用户也可以自定义分区,Hash分区为当前的默认分区,Spark中分区器直接决定了RDD中分区的个数、RDD中每条数据经过Shuffle过程属于哪个分区和Reduce的个数 只有Key-Value类型的RDD才有分区器的,非Key-Value类型的RDD 阅读全文
posted @ 2019-09-04 08:31 北漂屌丝 阅读(631) 评论(0) 推荐(0) 编辑
摘要: reduceByKey:按照key进行聚合,在shuffle之前有combine(预聚合)操作,返回结果是RDD[k,v] groupByKey:按照key进行分组,直接进行shuffle 建议使用reduceByKey。但是需要注意是否会影响业务逻辑 reduceByKey:按照key进行聚合,在 阅读全文
posted @ 2019-09-04 07:55 北漂屌丝 阅读(789) 评论(0) 推荐(0) 编辑
摘要: coalesce重新分区,可以选择是否进行shuffle过程。由参数shuffle: Boolean = false/true决定 repartition实际上是调用的coalesce,默认是进行shuffle的 阅读全文
posted @ 2019-09-04 07:45 北漂屌丝 阅读(1089) 评论(0) 推荐(0) 编辑