2020年5月7日

spark的shuffle过程

摘要: (1)shuffle的概述 Shuffle描述着数据从map task输出到reduce task输入的这段过程。因为是分布式存储,reduce task需要跨节点去拉取其它节点上的map task结果。这一过程将会产生网络资源消耗和内存,磁盘IO的消耗。通常shuffle分为两部分:Map阶段的数 阅读全文

posted @ 2020-05-07 16:30 hdc520 阅读(1072) 评论(0) 推荐(0) 编辑

导航