大数据-Spark-core - 随笔分类 - Unknown尚可

摘要：

RDD(3) RDD行动算子所谓行动算子，就是触发Job执行的方法 reduce 函数签名 def reduce(f: (T, T) => T): T 函数说明聚集RDD中的所有元素，先聚合分区内数据，再聚合分区间数据 e.g. code: def main(args: Array[String 阅读全文

posted @ 2022-07-08 07:53 Unknown尚可阅读(98) 评论(0) 推荐(0)

Spark快速上手(5)Spark核心编程-RDD转换算子案例实操

摘要：

RDD转换算子案例实操 ###数据准备 agent.log：时间戳，省份，城市，用户，广告【中间字段使用空格分隔】数据集，提取码：Unsk 1516609143867 6 7 64 16 1516609143869 9 4 75 18 1516609143869 1 7 87 12 1516609 阅读全文

posted @ 2022-07-07 14:39 Unknown尚可阅读(170) 评论(0) 推荐(0)

Spark快速上手(4)Spark核心编程-Spark分区器(Partitioner)@(RDD-K_V)

摘要：

###@Spark分区器(Partitioner) ####HashPartitioner（默认的分区器） HashPartitioner分区原理是对于给定的key，计算其hashCode，并除以分区的个数取余，如果余数小于0，则余数+分区的个数，最后返回的值就是这个key所属的分区ID，当key为阅读全文

posted @ 2022-07-04 17:25 Unknown尚可阅读(193) 评论(0) 推荐(0)

Spark快速上手(3)Spark核心编程-RDD转换算子Transform

摘要：

#RDD(2) ##RDD转换算子 RDD根据数据处理方式的不同将算子整体上分为Value类型、双Value类型、Key-Value类型 ###value类型 ####map 函数签名 def map[U:ClassTag](f:T=>U):RDD[U] 函数说明将处理的数据逐条进行映射转换，这里阅读全文

posted @ 2022-07-01 19:08 Unknown尚可阅读(173) 评论(0) 推荐(0)

Spark快速上手(2)Spark核心编程-RDD简介

摘要：Spark计算框架为适应高并发和高吞吐的数据处理需求，封装了三大数据结构，以处理不同应用： 1）RDD:弹性分布式数据集 2）累加器：分布式共享只写变量 3）广播变量：分布式共享只读变量 ##RDD(1) ###什么是RDD RDD(Resilient Distributed Dataset)弹性分阅读全文

posted @ 2022-07-01 10:10 Unknown尚可阅读(234) 评论(0) 推荐(0)

Spark快速上手(1)window下环境配置

摘要：笔者使用的开发环境是IntelliJ IDEA Community Edition 2021.3.3 scala版本是2.11.8，与Spark2.0严格对应。在maven环境中导入scala框架导入Scala框架导入成功后在main/java 路径中可以创建新的scala类至此，scala 阅读全文

posted @ 2022-06-30 15:38 Unknown尚可阅读(346) 评论(0) 推荐(0)

随笔分类 - 大数据-Spark-core

公告