复制代码
摘要: 一 流程详解 spark 最重要的就是shuffle 过程,就是所谓的mr 过程中进行处理map reduce 中的过程 减少shuffle 过程其实就是两个思路。 尽量不改变key,使其在local 完成,减少网络IO 磁盘IO和cpu 开销 减少shuffle 数据规模 ''' 1. 去重后un 阅读全文
posted @ 2019-09-14 16:21 pg633 阅读(143) 评论(0) 推荐(1) 编辑