2019 年 3月 11 日随笔档案 - wwcom123

2019年3月11日

摘要：如果有可能的话，尽量避免使用shuffle类算子。因为Spark作业运行过程中，最消耗性能的地方就是shuffle过程。shuffle过程，就是将分布在集群中多个节点上的同一个key，拉取到同一个节点上，进行聚合或join等操作。比如reduceByKey、join等算子，都会触发shuffle操作阅读全文

posted @ 2019-03-11 22:36 wwcom123 阅读(2337) 评论(0) 推荐(0) 编辑

wwcom123

公告