Unknownunknownshangke

Hi, Shangke!

行百里者半九十。

  • 看风雪喧嚷,听星月白驹。

    随笔分类 -  大数据-Spark-core

    摘要:Spark快速上手(6)Spark核心编程-RDD行动算子ActionRDD(3) RDD行动算子 所谓行动算子,就是触发Job执行的方法 reduce 函数签名 def reduce(f: (T, T) => T): T 函数说明 聚集RDD中的所有元素,先聚合分区内数据,再聚合分区间数据 e.g. code: def main(args: Array[String 阅读全文
    posted @ 2022-07-08 07:53 Unknown尚可 阅读(75) 评论(0) 推荐(0) 编辑
    摘要:Spark快速上手(5)Spark核心编程-RDD转换算子案例实操RDD转换算子案例实操 ###数据准备 agent.log:时间戳,省份,城市,用户,广告【中间字段使用空格分隔】 数据集,提取码:Unsk 1516609143867 6 7 64 16 1516609143869 9 4 75 18 1516609143869 1 7 87 12 1516609 阅读全文
    posted @ 2022-07-07 14:39 Unknown尚可 阅读(135) 评论(0) 推荐(0) 编辑
    摘要:Spark快速上手(4)Spark核心编程-Spark分区器(Partitioner)@(RDD-K_V)###@Spark分区器(Partitioner) ####HashPartitioner(默认的分区器) HashPartitioner分区原理是对于给定的key,计算其hashCode,并除以分区的个数取余,如果余数小于0,则余数+分区的个数,最后返回的值就是这个key所属的分区ID,当key为 阅读全文
    posted @ 2022-07-04 17:25 Unknown尚可 阅读(153) 评论(0) 推荐(0) 编辑
    摘要:Spark快速上手(3)Spark核心编程-RDD转换算子Transform#RDD(2) ##RDD转换算子 RDD根据数据处理方式的不同将算子整体上分为Value类型、双Value类型、Key-Value类型 ###value类型 ####map 函数签名 def map[U:ClassTag](f:T=>U):RDD[U] 函数说明 将处理的数据逐条进行映射转换,这里 阅读全文
    posted @ 2022-07-01 19:08 Unknown尚可 阅读(139) 评论(0) 推荐(0) 编辑
    摘要:Spark计算框架为适应高并发和高吞吐的数据处理需求,封装了三大数据结构,以处理不同应用: 1)RDD:弹性分布式数据集 2)累加器:分布式共享只写变量 3)广播变量:分布式共享只读变量 ##RDD(1) ###什么是RDD RDD(Resilient Distributed Dataset)弹性分 阅读全文
    posted @ 2022-07-01 10:10 Unknown尚可 阅读(191) 评论(0) 推荐(0) 编辑
    摘要:笔者使用的开发环境是IntelliJ IDEA Community Edition 2021.3.3 scala版本是2.11.8,与Spark2.0严格对应。 在maven环境中导入scala框架 导入Scala框架 导入成功后在main/java 路径中可以创建新的scala类 至此,scala 阅读全文
    posted @ 2022-06-30 15:38 Unknown尚可 阅读(325) 评论(0) 推荐(0) 编辑

    点击右上角即可分享
    微信分享提示