随笔档案「2021年1月8日」：spark学习进度07（深入了解RDD） ... - 喜欢爬的孩子

2021年1月8日

摘要：一、案例： 1、明确需求：在访问日志中，统计独立ip数量TOP10 2、查看数据结构： ip：是时间戳Http Method Url..... 3、明确编码步骤： 3.1 取出ip，生成一个只有ip的数据集 3.2简单清晰 3.3统计ip出现的次数 3.4排序按照ip出现的次数 3.5取出前十 4 阅读全文

posted @ 2021-01-08 22:14 喜欢爬的孩子阅读(276) 评论(0) 推荐(0)

spark学习进度06（RDD的Map算子、FlatMap算子、ReduceByKey算子）

摘要：一、Map算子：作用把 RDD 中的数据一对一的转为另一种形式调用 def map[U: ClassTag](f: T ⇒ U): RDD[U] 参数 f → Map 算子是原RDD → 新RDD 的过程, 这个函数的参数是原 RDD 数据, 返回值是经过函数转换的新 RDD 的数据注阅读全文

posted @ 2021-01-08 20:27 喜欢爬的孩子阅读(500) 评论(0) 推荐(0)

spark学习进度05（RDD概念、代码、三种创建方式）

摘要：一、RDD概念 1、RDD在哪里： 2、RDD是什么：是一个容错的, 并行的数据结构, 可以让用户显式地将数据存储到磁盘和内存中, 并能控制数据的分区.RDD 作为数据结构, 本质上是一个只读的分区记录集合. 一个 RDD 可以包含多个分区, 每个分区就是一个 DataSet 片段.RDD 之间可阅读全文

posted @ 2021-01-08 19:31 喜欢爬的孩子阅读(339) 评论(0) 推荐(0)

spark学习进度04（独立应用的两种形式）

摘要： 1、独立应用的形式（上线、放在集群中运行） 1.1本地运行的方式 idea创建web项目添加scala和maven依赖。配置pom文件： <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/ 阅读全文

posted @ 2021-01-08 15:02 喜欢爬的孩子阅读(137) 评论(0) 推荐(0)

scala配置、idea运行第一个scala程序

摘要：一、下载相应的sdk进行变量配置： ScalaSDK下载地址：http://www.scala-lang.org/download/ idea下载地址：https://www.jetbrains.com/idea/ 根据解压的路径配置环境变量和系统变量。之后再配置环境变量就好了（双击系统变量中的p 阅读全文

posted @ 2021-01-08 10:59 喜欢爬的孩子阅读(1063) 评论(0) 推荐(0)

spark学习进度03（入门案例、sparkshell本地文件读取，hdfs读取、本地运行、提交运行）

摘要：一、编写spark代码的几种方式：（主要看重的方面：1、观察数据集 2、编写代码测试数据集 3、固化代码、提交集群运行上线） 1、spark-shell （数据集的探索、测试） Spark shell 简介启动 Spark shell进入 Spark 安装目录后执行 spark-shell -- 阅读全文

posted @ 2021-01-08 10:29 喜欢爬的孩子阅读(814) 评论(0) 推荐(0)

悄悄成长

公告