摘要: spark中的shuffle shuffle简介 shuffle是将数据重新分配 的过程,它是跨分区的,涉及网络IO传输的,成本很高。他是整个大数据的性能杀手,瓶颈所在,故生产中尽量较少有shuffle动作的产生。 spark shuffle 演进的历史 spark0.8及以前Hash Based  阅读全文
posted @ 2019-06-08 10:43 任重而道远的小蜗牛 阅读(284) 评论(0) 推荐(0) 编辑