2019 年 8月 6 日随笔档案 - JohnnyBai

2019年8月6日

摘要：提出问题 1. spark shuffle的预聚合操作是如何做的，其中底层的数据结构是什么？在数据写入到内存中有预聚合，在读溢出文件合并到最终的文件时是否也有预聚合操作？ 2. shuffle数据的排序是如何做的？分区内的数据是否是有序的？若有序，spark 内部是按照什么排序算法来排序每一个分区阅读全文

posted @ 2019-08-06 23:44 JohnnyBai 阅读(2191) 评论(3) 推荐(3) 编辑

求知

公告