摘要: rdd的mapPartitions是map的一个变种,它们都可进行分区的并行处理。 两者的主要区别是调用的粒度不一样:map的输入变换函数是应用于RDD中每个元素,而mapPartitions的输入函数是应用于每个分区。 假设一个rdd有10个元素,分成3个分区。如果使用map方法,map中的输入函 阅读全文
posted @ 2018-03-16 16:38 yimison 阅读(580) 评论(0) 推荐(0) 编辑