摘要: 由于计算的融合只发生在 Stages 内部,而 Shuffle 是切割 Stages 的边界,因此一旦发生 Shuffle,内存计算的代码融合就会中断。 在 Spark 中,内存计算有两层含义: 第一层含义就是众所周知的分布式数据缓存; 第二层含义是 Stage 内的流水线式计算模式,通过计算的融合 阅读全文
posted @ 2021-06-27 00:56 linux-123 阅读(228) 评论(0) 推荐(0) 编辑