7.Spark SQL
摘要:1.请分析SparkSQL出现的原因,并简述SparkSQL的起源与发展。 Spark SQL 的前身是 Shark ,即"Hive on Spark",由 Reynold Xin 主导开发。Shark 项目最初启动于 2011 年,当时 Hive 几乎算是唯一的 SQL-on-Hadoop 选择方
阅读全文
posted @
2022-05-10 18:02
敖呜
阅读(41)
推荐(0) 编辑
6. RDD综合练习:更丰富的操作
摘要:集合运算练习 union(), intersection(),subtract(), cartesian() 内连接与外连接 join(), leftOuterJoin(), rightOuterJoin(), fullOuterJoin() 三、综合练习:学生课程分数 网盘下载sc.txt文件,通
阅读全文
posted @
2022-04-19 17:28
敖呜
阅读(33)
推荐(0) 编辑
5.RDD操作综合实例
摘要:准备文件 读文件创建RDD 分词 排除大小写lower(),map() 标点符号re.split(pattern,str),flatMap(), 停用词,可网盘下载stopwords.txt,filter(), 长度小于2的词filter() 统计词频 按词频排序 输出到文件 查看结果 B. 一句话
阅读全文
posted @
2022-04-05 19:11
敖呜
阅读(40)
推荐(0) 编辑
4.RDD操作
摘要:一、 RDD创建 1.从本地文件系统中加载数据创建RDD 从HDFS加载数据创建RDD 启动hdfs 上传文件 查看文件 加载 停止hdfs 通过并行集合(列表)创建RDD 二、 RDD操作 转换操作 filter(func)显式定义函数lambda函数 map(func)显式定义函数lambda函
阅读全文
posted @
2022-03-20 20:58
敖呜
阅读(19)
推荐(0) 编辑
大数据概述.
摘要:一.列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系,以图呈现并加以文字描述。 1、HDFS(hadoop分布式文件系统) 是hadoop体系中数据存储管理的基础。他是一个高度容错的系统,能检测和应对硬件故障。 client:切分文件,访问HDFS,与namenode交互,获取文件
阅读全文
posted @
2022-02-28 00:23
敖呜
阅读(60)
推荐(0) 编辑