啊bin

2022年6月1日

摘要：原因：五一假期忘了 1.请分析SparkSQL出现的原因，并简述SparkSQL的起源与发展。 Spark SQL 的前身是 Shark ，即"Hive on Spark"，由 Reynold Xin 主导开发。Shark 项目最初启动于 2011 年，当时 Hive 几乎算是唯一的 SQL-on- 阅读全文

posted @ 2022-06-01 20:15 啊bin 阅读(52) 评论(0) 推荐(0)

2022年5月24日

第八次作业

摘要： 1. 总共有多少学生？ 2. 总共开设了多少门课程？ 3. 每个学生选修了多少门课？ 4. 每门课程有多少个学生选？ 5. 每门课程>95分的学生人数 6. 课程'Python'有多少个100分？ 7. Tom选修了几门课？每门课多少分？ 8. Tom的成绩按分数大小排序。 9. Tom选修了哪几门阅读全文

posted @ 2022-05-24 08:39 啊bin 阅读(53) 评论(0) 推荐(0)

2022年4月20日

第六次作业

摘要：集合运算练习 union()， intersection()，subtract(), cartesian() 内连接与外连接 join(), leftOuterJoin(), rightOuterJoin(), fullOuterJoin() 三、综合练习：学生课程分数网盘下载sc.txt文件，通阅读全文

posted @ 2022-04-20 10:16 啊bin 阅读(62) 评论(0) 推荐(0)

2022年4月12日

第五次作业

摘要：一、词频统计 A. 分步骤实现 1.准备文件 1.下载小说或长篇新闻稿 2.上传到hdfs上 2.读文件创建RDD 3.分词 4.排除大小写lower()，map() 标点符号re.split(pattern,str)，flatMap(), 停用词,可网盘下载stopwords.txt,filter 阅读全文

posted @ 2022-04-12 12:15 啊bin 阅读(26) 评论(0) 推荐(0)

2022年3月22日

第四次作业

摘要：一、 RDD创建 1.从本地文件系统中加载数据创建RDD 从HDFS加载数据创建RDD启动hdfs 上传文件查看文件加载停止hdfs 通过并行集合（列表）创建RDD输入列表字符串numpy生成数组二、 RDD操作转换操作 filter(func)显式定义函数lambda函数 map(fun 阅读全文

posted @ 2022-03-22 00:34 啊bin 阅读(42) 评论(0) 推荐(0)

2022年3月12日

第三次作业

摘要： 1.Spark生态系统的组成及各组件的功能。 1 . Spark Core：Spark的核心组件，其操作的数据对象是RDD（弹性分布式数据集）图中在Spark Core上面的四个组件都依赖于Spark Core，可以简单认为Spark Core就是Spark生态系统中的离线计算框架，eg：Spark 阅读全文

posted @ 2022-03-12 20:46 啊bin 阅读(71) 评论(0) 推荐(0)

2022年3月5日

第二次作业

摘要：一、安装Spark hadoop，jdk基础坏境的检查 spark的使用二、Python编程练习：英文文本的词频统计 import string list=[] dict={} txt=open('text.txt','r').read().lower() #读取文件 for ch in stri 阅读全文

posted @ 2022-03-05 15:22 啊bin 阅读(52) 评论(0) 推荐(0)

2022年2月24日

第一次作业

摘要： 1.列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系，以图呈现并加以文字描述。 1，HDFS（hadoop分布式文件系统）是hadoop体系中数据存储管理的基础。他是一个高度容错的系统，能检测和应对硬件故障。 client：切分文件，访问HDFS，与namenode交互，获取文件阅读全文

posted @ 2022-02-24 15:18 啊bin 阅读(56) 评论(0) 推荐(0)

公告