摘要:
原因:五一假期忘了 1.请分析SparkSQL出现的原因,并简述SparkSQL的起源与发展。 Spark SQL 的前身是 Shark ,即"Hive on Spark",由 Reynold Xin 主导开发。Shark 项目最初启动于 2011 年,当时 Hive 几乎算是唯一的 SQL-on- 阅读全文
摘要:
1. 总共有多少学生? 2. 总共开设了多少门课程? 3. 每个学生选修了多少门课? 4. 每门课程有多少个学生选? 5. 每门课程>95分的学生人数 6. 课程'Python'有多少个100分? 7. Tom选修了几门课?每门课多少分? 8. Tom的成绩按分数大小排序。 9. Tom选修了哪几门 阅读全文
摘要:
集合运算练习 union(), intersection(),subtract(), cartesian() 内连接与外连接 join(), leftOuterJoin(), rightOuterJoin(), fullOuterJoin() 三、综合练习:学生课程分数 网盘下载sc.txt文件,通 阅读全文
摘要:
一、词频统计 A. 分步骤实现 1.准备文件 1.下载小说或长篇新闻稿 2.上传到hdfs上 2.读文件创建RDD 3.分词 4.排除大小写lower(),map() 标点符号re.split(pattern,str),flatMap(), 停用词,可网盘下载stopwords.txt,filter 阅读全文
摘要:
一、 RDD创建 1.从本地文件系统中加载数据创建RDD 从HDFS加载数据创建RDD启动hdfs 上传文件 查看文件 加载 停止hdfs 通过并行集合(列表)创建RDD输入列表字符串numpy生成数组 二、 RDD操作 转换操作 filter(func)显式定义函数lambda函数 map(fun 阅读全文
摘要:
1.Spark生态系统的组成及各组件的功能。 1 . Spark Core:Spark的核心组件,其操作的数据对象是RDD(弹性分布式数据集)图中在Spark Core上面的四个组件都依赖于Spark Core,可以简单认为Spark Core就是Spark生态系统中的离线计算框架,eg:Spark 阅读全文
摘要:
一、安装Spark hadoop,jdk基础坏境的检查 spark的使用 二、Python编程练习:英文文本的词频统计 import string list=[] dict={} txt=open('text.txt','r').read().lower() #读取文件 for ch in stri 阅读全文
摘要:
1.列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系,以图呈现并加以文字描述。 1,HDFS(hadoop分布式文件系统) 是hadoop体系中数据存储管理的基础。他是一个高度容错的系统,能检测和应对硬件故障。 client:切分文件,访问HDFS,与namenode交互,获取文件 阅读全文