摘要: Shuffle 概述 影响Spark性能的大BOSS就是shuffle,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。 因此,如果要让作业的性能更上一层楼,就有必要对 shuffle 过程进行调优。 当然,影响 Spark 性能的还有代码开发、参数设置数以及数据倾斜的解决等,甚至这部分 阅读全文
posted @ 2019-07-26 15:06 lillcol 阅读(3035) 评论(0) 推荐(1) 编辑