2021 年 8月 16 日随笔档案 - huas_lqy

2021年8月16日

摘要：一、sortBy算子前言：spark中的排序采用的是tera sort算法，先分区间有序再分区内有序，从而达到全局有序： **1，采样确定边界：**对每个分区采样，然后汇总排序，确定每个分区保存数据的范围，最后输出范围的上界数组； **2，shuffle write分区间有序：**用RangePa 阅读全文

posted @ 2021-08-16 21:47 huas_lqy 阅读(241) 评论(0) 推荐(0) 编辑

快乐咸鱼每一天

既来之，则安之

公告