上一页 1 ··· 10 11 12 13 14 15 16 17 18 ··· 38 下一页
摘要: 一、案例: 1、明确需求: 在访问日志中,统计独立ip数量TOP10 2、查看数据结构: ip:是时间戳Http Method Url..... 3、明确编码步骤: 3.1 取出ip,生成一个只有ip的数据集 3.2简单清晰 3.3统计ip出现的次数 3.4排序按照ip出现的次数 3.5取出前十 4 阅读全文
posted @ 2021-01-08 22:14 喜欢爬的孩子 阅读(257) 评论(0) 推荐(0) 编辑
摘要: 一、Map算子: 作用 把 RDD 中的数据 一对一 的转为另一种形式 调用 def map[U: ClassTag](f: T ⇒ U): RDD[U] 参数 f → Map 算子是 原RDD → 新RDD 的过程, 这个函数的参数是原 RDD 数据, 返回值是经过函数转换的新 RDD 的数据 注 阅读全文
posted @ 2021-01-08 20:27 喜欢爬的孩子 阅读(413) 评论(0) 推荐(0) 编辑
摘要: 一、RDD概念 1、RDD在哪里: 2、RDD是什么: 是一个容错的, 并行的数据结构, 可以让用户显式地将数据存储到磁盘和内存中, 并能控制数据的分区.RDD 作为数据结构, 本质上是一个只读的分区记录集合. 一个 RDD 可以包含多个分区, 每个分区就是一个 DataSet 片段.RDD 之间可 阅读全文
posted @ 2021-01-08 19:31 喜欢爬的孩子 阅读(274) 评论(0) 推荐(0) 编辑
摘要: 1、独立应用的形式 (上线、放在集群中运行) 1.1本地运行的方式 idea创建web项目添加scala和maven依赖。 配置pom文件: <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/ 阅读全文
posted @ 2021-01-08 15:02 喜欢爬的孩子 阅读(120) 评论(0) 推荐(0) 编辑
摘要: 一、下载相应的sdk进行变量配置: ScalaSDK下载地址:http://www.scala-lang.org/download/ idea下载地址:https://www.jetbrains.com/idea/ 根据解压的路径配置环境变量和系统变量。 之后再配置环境变量就好了(双击系统变量中的p 阅读全文
posted @ 2021-01-08 10:59 喜欢爬的孩子 阅读(944) 评论(0) 推荐(0) 编辑
摘要: 一、编写spark代码的几种方式: (主要看重的方面:1、观察数据集 2、编写代码测试数据集 3、固化代码、提交集群运行上线) 1、spark-shell (数据集的探索、测试) Spark shell 简介 启动 Spark shell进入 Spark 安装目录后执行 spark-shell -- 阅读全文
posted @ 2021-01-08 10:29 喜欢爬的孩子 阅读(706) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2021-01-07 22:23 喜欢爬的孩子 阅读(684) 评论(0) 推荐(0) 编辑
摘要: 第一步: 第二步: 第三步: 运行结果如下: spark比较擅长做迭代的操作的相关计算。 阅读全文
posted @ 2021-01-07 20:49 喜欢爬的孩子 阅读(64) 评论(0) 推荐(0) 编辑
摘要: 1、spark的相关特点 速度快、易用、通用、兼容 速度快::+--* Spark 的在内存时的运行速度是 Hadoop MapReduce 的100倍* 基于硬盘的运算速度大概是 Hadoop MapReduce 的10倍* Spark 实现了一种叫做 RDDs 的 DAG 执行引擎, 其数据缓存 阅读全文
posted @ 2021-01-07 20:20 喜欢爬的孩子 阅读(81) 评论(0) 推荐(0) 编辑
摘要: 1、第一种交互方式:(bin/hive) 启动会有一些慢 类似于mysql的终端 查看有哪些数据库 创建数据库操作 在数据库中创建表 查看表 2、第二种交互方式:(使用sql语句或者sql脚本进行交互) 2.1不进入hive的客户端直接执行hive的hql语句 2.2将hql语句写成一个sql脚本然 阅读全文
posted @ 2021-01-06 19:01 喜欢爬的孩子 阅读(111) 评论(0) 推荐(0) 编辑
上一页 1 ··· 10 11 12 13 14 15 16 17 18 ··· 38 下一页