看风雪喧嚷,听星月白驹。
随笔分类 - 大数据-Spark-core
摘要:
RDD(3) RDD行动算子 所谓行动算子,就是触发Job执行的方法 reduce 函数签名 def reduce(f: (T, T) => T): T 函数说明 聚集RDD中的所有元素,先聚合分区内数据,再聚合分区间数据 e.g. code: def main(args: Array[String
阅读全文

摘要:
RDD转换算子案例实操 ###数据准备 agent.log:时间戳,省份,城市,用户,广告【中间字段使用空格分隔】 数据集,提取码:Unsk 1516609143867 6 7 64 16 1516609143869 9 4 75 18 1516609143869 1 7 87 12 1516609
阅读全文

摘要:
###@Spark分区器(Partitioner) ####HashPartitioner(默认的分区器) HashPartitioner分区原理是对于给定的key,计算其hashCode,并除以分区的个数取余,如果余数小于0,则余数+分区的个数,最后返回的值就是这个key所属的分区ID,当key为
阅读全文

摘要:
#RDD(2) ##RDD转换算子 RDD根据数据处理方式的不同将算子整体上分为Value类型、双Value类型、Key-Value类型 ###value类型 ####map 函数签名 def map[U:ClassTag](f:T=>U):RDD[U] 函数说明 将处理的数据逐条进行映射转换,这里
阅读全文

摘要:Spark计算框架为适应高并发和高吞吐的数据处理需求,封装了三大数据结构,以处理不同应用: 1)RDD:弹性分布式数据集 2)累加器:分布式共享只写变量 3)广播变量:分布式共享只读变量 ##RDD(1) ###什么是RDD RDD(Resilient Distributed Dataset)弹性分
阅读全文
摘要:笔者使用的开发环境是IntelliJ IDEA Community Edition 2021.3.3 scala版本是2.11.8,与Spark2.0严格对应。 在maven环境中导入scala框架 导入Scala框架 导入成功后在main/java 路径中可以创建新的scala类 至此,scala
阅读全文