摘要: 如果有可能的话,尽量避免使用shuffle类算子。因为Spark作业运行过程中,最消耗性能的地方就是shuffle过程。shuffle过程,就是将分布在集群中多个节点上的同一个key,拉取到同一个节点上,进行聚合或join等操作。比如reduceByKey、join等算子,都会触发shuffle操作 阅读全文
posted @ 2019-03-11 22:36 wwcom123 阅读(2310) 评论(0) 推荐(0) 编辑