随笔 - 7  文章 - 0  评论 - 0  阅读 - 291
  2022年5月10日
摘要: 1.请分析SparkSQL出现的原因,并简述SparkSQL的起源与发展。 Spark SQL 的前身是 Shark ,即"Hive on Spark",由 Reynold Xin 主导开发。Shark 项目最初启动于 2011 年,当时 Hive 几乎算是唯一的 SQL-on-Hadoop 选择方 阅读全文
posted @ 2022-05-10 18:02 敖呜 阅读(41) 评论(0) 推荐(0) 编辑
  2022年4月19日
摘要: 集合运算练习 union(), intersection(),subtract(), cartesian() 内连接与外连接 join(), leftOuterJoin(), rightOuterJoin(), fullOuterJoin() 三、综合练习:学生课程分数 网盘下载sc.txt文件,通 阅读全文
posted @ 2022-04-19 17:28 敖呜 阅读(33) 评论(0) 推荐(0) 编辑
  2022年4月5日
摘要: 准备文件 读文件创建RDD 分词 排除大小写lower(),map() 标点符号re.split(pattern,str),flatMap(), 停用词,可网盘下载stopwords.txt,filter(), 长度小于2的词filter() 统计词频 按词频排序 输出到文件 查看结果 B. 一句话 阅读全文
posted @ 2022-04-05 19:11 敖呜 阅读(40) 评论(0) 推荐(0) 编辑
  2022年3月20日
摘要: 一、 RDD创建 1.从本地文件系统中加载数据创建RDD 从HDFS加载数据创建RDD 启动hdfs 上传文件 查看文件 加载 停止hdfs 通过并行集合(列表)创建RDD 二、 RDD操作 转换操作 filter(func)显式定义函数lambda函数 map(func)显式定义函数lambda函 阅读全文
posted @ 2022-03-20 20:58 敖呜 阅读(19) 评论(0) 推荐(0) 编辑
  2022年3月11日
摘要: 1.Spark已打造出结构一体化、功能多样化的大数据生态系统,请用图文阐述Spark生态系统的组成及各组件的功能。 目前,Spark生态系统已经发展成为一个可应用于大规模数据处理的统一分析引擎,它是基于内存计算的大数据并行计算框架,适用于各种各样的分布式平台系统。在Spark生态圈中包含了Spark 阅读全文
posted @ 2022-03-11 17:42 敖呜 阅读(82) 评论(0) 推荐(0) 编辑
  2022年3月7日
摘要: 一、安装Spark 检查jdk和spark运行测试 二、Python编程练习:英文文本的词频统计 源代码: import stringdict={}txt=open('test.txt','r',encoding="UTF-8").read().lower()for ch in string.pun 阅读全文
posted @ 2022-03-07 12:38 敖呜 阅读(16) 评论(0) 推荐(0) 编辑
  2022年2月28日
摘要: 一.列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系,以图呈现并加以文字描述。 1、HDFS(hadoop分布式文件系统) 是hadoop体系中数据存储管理的基础。他是一个高度容错的系统,能检测和应对硬件故障。 client:切分文件,访问HDFS,与namenode交互,获取文件 阅读全文
posted @ 2022-02-28 00:23 敖呜 阅读(60) 评论(0) 推荐(0) 编辑
< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

点击右上角即可分享
微信分享提示