摘要:
对spark functions进行一个逻辑上的分类,分类的标准就是,是否是基于key-value的。 1.基于key-value 1.1 combineByKey为基础的,他们都会进行shuffle操作,比如foldByKey,reduceByKey,groupByKey。 1.2 cogroup 阅读全文
摘要:
1.Shuffle Write 和Shuffle Read具体发生在哪里 2.哪里用到了Partitioner 3.何为mapSideCombine 4.何时进行排序 之前已经看过spark shuffle源码了,现在总结一下一些之前没有理解的小知识点,作为一个总结。 用户自定义的Partition 阅读全文