Spark functions
对spark functions进行一个逻辑上的分类,分类的标准就是,是否是基于key-value的。
1.基于key-value
1.1 combineByKey为基础的,他们都会进行shuffle操作,比如foldByKey,reduceByKey,groupByKey。
1.2 cogroup,join,substract 对两个或者多个key-value RDD进行操作的。
1.3 mapValues,flatMapValues,countByKey
2.Double
3.General
map,flatMap,filter,count,union,cache,mapPartitions,.....