摘要: 一、RDD的分区和Shuffle 目标 RDD 的分区操作 Shuffle 的原理 分区的作用 RDD 使用分区来分布式并行处理数据, 并且要做到尽量少的在不同的 Executor 之间使用网络交换数据, 所以当使用 RDD 读取数据的时候, 会尽量的在物理上靠近数据源, 比如说在读取 Cassan 阅读全文
posted @ 2021-01-10 20:50 喜欢爬的孩子 阅读(250) 评论(0) 推荐(0) 编辑
摘要: 阶段练习 一、看看数据集格式 二、明确需求 三、明确步骤 1、读取文件 2、抽取需要的列 3、以年月为基础,进行reduceByKey统计东四地区的PM 4、排序 5、获取结果 四、编码 1、拷贝数据集 2、创建类 3、编写代码 4、运行测试 @Test def reduce():Unit={ // 阅读全文
posted @ 2021-01-10 12:32 喜欢爬的孩子 阅读(99) 评论(0) 推荐(0) 编辑
摘要: (所有转换操作的算子都是惰性的,在执行的时候。并不会真的去调度运行,求得结果。而是是生成对应的RDD,只有在Action操作的时候,才会真的运行求得结果) 一、Action操作: 1、collect(并不能适应所有的场景) 2、reduce 作用 对整个结果集规约, 最终生成一条数据, 是整个数据集 阅读全文
posted @ 2021-01-10 10:58 喜欢爬的孩子 阅读(214) 评论(0) 推荐(0) 编辑