2016 年 4月 22 日随笔档案 - 王宝生

2016年4月22日

摘要：对spark functions进行一个逻辑上的分类，分类的标准就是，是否是基于key-value的。 1.基于key-value 1.1 combineByKey为基础的，他们都会进行shuffle操作,比如foldByKey，reduceByKey,groupByKey。 1.2 cogroup 阅读全文

posted @ 2016-04-22 16:18 王宝生阅读(387) 评论(0) 推荐(0) 编辑

spark shuffle 相关细节整理

摘要： 1.Shuffle Write 和Shuffle Read具体发生在哪里 2.哪里用到了Partitioner 3.何为mapSideCombine 4.何时进行排序之前已经看过spark shuffle源码了，现在总结一下一些之前没有理解的小知识点，作为一个总结。用户自定义的Partition 阅读全文

posted @ 2016-04-22 09:47 王宝生阅读(814) 评论(0) 推荐(0) 编辑

FrancisYoung

公告