摘要: 对spark functions进行一个逻辑上的分类,分类的标准就是,是否是基于key-value的。 1.基于key-value 1.1 combineByKey为基础的,他们都会进行shuffle操作,比如foldByKey,reduceByKey,groupByKey。 1.2 cogroup 阅读全文
posted @ 2016-04-22 16:18 王宝生 阅读(383) 评论(0) 推荐(0) 编辑
摘要: 1.Shuffle Write 和Shuffle Read具体发生在哪里 2.哪里用到了Partitioner 3.何为mapSideCombine 4.何时进行排序 之前已经看过spark shuffle源码了,现在总结一下一些之前没有理解的小知识点,作为一个总结。 用户自定义的Partition 阅读全文
posted @ 2016-04-22 09:47 王宝生 阅读(806) 评论(0) 推荐(0) 编辑