摘要: 一、sortBy算子 前言:spark中的排序采用的是tera sort算法,先分区间有序再分区内有序,从而达到全局有序: **1,采样确定边界:**对每个分区采样,然后汇总排序,确定每个分区保存数据的范围,最后输出范围的上界数组; **2,shuffle write分区间有序:**用RangePa 阅读全文
posted @ 2021-08-16 21:47 huas_lqy 阅读(241) 评论(0) 推荐(0) 编辑