上一页 1 ··· 8 9 10 11 12 13 14 15 16 ··· 34 下一页
摘要: 有类型操作 flatMap 通过 flatMap 可以将一条数据转为一个数组, 后再展开这个数组放入 Dataset val ds1=Seq("hello spark","hello hadoop").toDS() ds1.flatMap(item => item.split(" ")).show( 阅读全文
posted @ 2021-01-13 18:41 清风紫雪 阅读(630) 评论(0) 推荐(0) 编辑
摘要: Spark SQL 基本操作 将下列 JSON 格式数据复制到 Linux 系统中,并保存命名为 employee.json。 { "id":1 , "name":" Ella" , "age":36 } { "id":2, "name":"Bob","age":29 } { "id":3 , "n 阅读全文
posted @ 2021-01-12 22:28 清风紫雪 阅读(204) 评论(0) 推荐(0) 编辑
摘要: SparkSQL简介 SparkSQL 的出现契机 SparkSQL 解决的问题 Spark SQL 使用 Hive 解析 SQL 生成 AST 语法树, 将其后的逻辑计划生成, 优化, 物理计划都自己完成, 而不依赖 Hive 执行计划和优化交给优化器 Catalyst 内建了一套简单的 SQL  阅读全文
posted @ 2021-01-11 21:16 清风紫雪 阅读(103) 评论(0) 推荐(0) 编辑
摘要: 综合案例 文件排序 解法: 1.读取数据 2.数据清洗,变换数据格式 3.从新分区成一个分区 4.按照key排序,返还带有位次的元组 5.输出 @Test def filesort(): Unit ={ val source=sc.textFile("dataset/filesort.txt",3) 阅读全文
posted @ 2021-01-10 23:41 清风紫雪 阅读(171) 评论(0) 推荐(0) 编辑
摘要: Scala编程 1. 计算级数 请用脚本的方式编程计算并输出下列级数的前 n 项之和 Sn,直到 Sn 刚好大于或等于 q为止,其中 q 为大于 0 的整数,其值通过键盘输入。 例如,若 q 的值为 50.0,则输出应为:Sn=50.416695。请将源文件保存为exercise2-1.scala, 阅读全文
posted @ 2021-01-09 21:26 清风紫雪 阅读(142) 评论(0) 推荐(0) 编辑
摘要: spark-shell 交互式编程 题目:该数据集包含了某大学计算机系的成绩,数据格式如下所示: Tom,DataBase,80 Tom,Algorithm,50 Tom,DataStructure,60 Jim,DataBase,90 Jim,Algorithm,60 Jim,DataStruct 阅读全文
posted @ 2021-01-08 22:21 清风紫雪 阅读(388) 评论(0) 推荐(0) 编辑
摘要: Transformation算子 intersection 交集 /* 交集 */ @Test def intersection(): Unit ={ val rdd1=sc.parallelize(Seq(1,2,3,4,5)) val rdd2=sc.parallelize(Seq(3,4,5, 阅读全文
posted @ 2021-01-07 22:32 清风紫雪 阅读(121) 评论(0) 推荐(0) 编辑
摘要: RDD算子 深入RDD 需求 给定一个网站的访问记录, 俗称 Access log 计算其中出现的独立 IP, 以及其访问的次数 数据格式如下: 代码: @Test def ipAGG(): Unit ={ //1.创建SparkContext val conf=new SparkConf().se 阅读全文
posted @ 2021-01-06 23:17 清风紫雪 阅读(112) 评论(0) 推荐(0) 编辑
摘要: RDD RDD 是什么 定义 RDD, 全称为 Resilient Distributed Datasets, 是一个容错的, 并行的数据结构, 可以让用户显式地将数据存储到磁盘和内存中, 并能控制数据的分区. 同时, RDD 还提供了一组丰富的操作来操作这些数据. 在这些操作中, 诸如 map, 阅读全文
posted @ 2021-01-05 23:02 清风紫雪 阅读(141) 评论(0) 推荐(0) 编辑
摘要: 提交命令sc.textFile(“hdfs://hadoop101:50070/data/wordcount.txt”).collect() spark报异常 这里时HDFS端口问题,将50070端口改为8020再提交sc.textFile(“hdfs://hadoop101:8020/data/w 阅读全文
posted @ 2021-01-05 12:23 清风紫雪 阅读(815) 评论(0) 推荐(0) 编辑
上一页 1 ··· 8 9 10 11 12 13 14 15 16 ··· 34 下一页