摘要: action算子会触发spark进行运算,用于job划分,一个action算子就是一个job。 带有shuffle的算子用于划分stage(一个分区的数据去往多个分区),例如reduceByKey、 action算子如下: 1、count() 返回数据集中的元素数。会在结果计算完成后回收到Drive 阅读全文
posted @ 2021-01-04 19:14 bioamin 阅读(399) 评论(0) 推荐(0) 编辑
摘要: sortByKey和sortBy都是transforamation算子; sortByKey 源码如下: def sortByKey(ascending: Boolean = true, numPartitions: Int = self.partitions.length) : RDD[(K, V 阅读全文
posted @ 2021-01-04 17:12 bioamin 阅读(171) 评论(0) 推荐(0) 编辑
摘要: reduceBykey是一个transformation 算子 reduceByKey: 使用 func 函数合并具有相同键的值。对于每个key对应的多个value进行了merge操作,最重要的是它能够先在本地进行merge操作。merge可以通过func自定义。 groupByKey : 对每个k 阅读全文
posted @ 2021-01-04 16:21 bioamin 阅读(120) 评论(0) 推荐(0) 编辑
摘要: sample算子通常用于抽样,是一个transformation算子 参数:withReplacement=true代表有放回抽样 参数:fraction 代表抽样的比例 使用: data.sample(withReplacement=true,fraction = 0.5).collect().f 阅读全文
posted @ 2021-01-04 15:51 bioamin 阅读(559) 评论(0) 推荐(0) 编辑
摘要: flatMap 算子在word count中经常使用,是一个transformation 算子 1、如果使用map val arr=sc.parallelize(Array(("A",1),("B",2),("C",3))) arr.map(x=>(x._1+x._2)).collect.forea 阅读全文
posted @ 2021-01-04 15:35 bioamin 阅读(629) 评论(0) 推荐(0) 编辑