摘要:
WordCount基本流程和spark实现 ####基本流程 1.创建spark环境 2.创建创建spark上下文对象,也就是spark写代码的入口 3.读取文件中的数据 4.首先将每一行数据展开,让每一个word单独一行 5.将word进行分组 6.对word出现的次数分别统计 7.将结果保存在新
阅读全文
posted @ 2022-07-13 20:16
+1000
阅读(51)
推荐(0)
编辑
摘要:
什么是RDD RDD(Resilient Distributed Dataset)叫做弹性分布式数据集 RDD是Spark中的抽象数据结构类型,Spark中最基本的数据抽象,实现了以操作本地集合的方式来操作分布式数据集的抽象实现, 它代表一个不可变、可分区、里面的元素可并行计算的集合。 RDD具有数
阅读全文
posted @ 2022-07-13 20:02
+1000
阅读(29)
推荐(0)
编辑
摘要:
Spark的算子的分类 从大方向来说,Spark 算子大致可以分为以下两类: Transformation 变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理。Transformation 操作是延迟计算的,也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行,需要等到有
阅读全文
posted @ 2022-07-13 19:50
+1000
阅读(99)
推荐(0)
编辑