Spark functions

对spark functions进行一个逻辑上的分类,分类的标准就是,是否是基于key-value的。

 

1.基于key-value

   1.1 combineByKey为基础的,他们都会进行shuffle操作,比如foldByKey,reduceByKey,groupByKey。

   1.2 cogroup,join,substract 对两个或者多个key-value RDD进行操作的。

   1.3 mapValues,flatMapValues,countByKey

 

 

2.Double

3.General

   map,flatMap,filter,count,union,cache,mapPartitions,.....

posted @ 2016-04-22 16:18  王宝生  阅读(386)  评论(0编辑  收藏  举报