摘要: 1.请分析SparkSQL出现的原因,并简述SparkSQL的起源与发展。 SparkSQL的前身Shark对于Hive的太多依赖(如采用Hive的语法解析器、查询优化器等等),制约了Spark的One Stack Rule Them All的既定方针,制约了Spark各个组件的相互集成,所以提出了 阅读全文
posted @ 2022-05-11 21:12 Sjh_code 阅读(28) 评论(0) 推荐(0) 编辑
摘要: 集合运算练习 union(), intersection(),subtract(), cartesian() 内连接与外连接 join(), leftOuterJoin(), rightOuterJoin(), fullOuterJoin() 三、综合练习:学生课程分数 网盘下载sc.txt文件,通 阅读全文
posted @ 2022-04-19 19:40 Sjh_code 阅读(24) 评论(0) 推荐(0) 编辑
摘要: 一、词频统计 A. 分步骤实现 1准备文件 2下载小说或长篇新闻稿 3上传到hdfs上 4读文件创建RDD 分词 排除大小写lower(),map() 标点符号re.split(pattern,str),flatMap(), 停用词,可网盘下载stopwords.txt,filter(), 长度小于 阅读全文
posted @ 2022-04-08 16:16 Sjh_code 阅读(12) 评论(0) 推荐(0) 编辑
摘要: 1.Spark已打造出结构一体化、功能多样化的大数据生态系统,请用图文阐述Spark生态系统的组成及各组件的功能。 目前,Spark生态系统已经发展成为一个可应用于大规模数据处理的统一分析引擎,它是基于内存计算的大数据并行计算框架,适用于各种各样的分布式平台的系统。在Spark生态圈中包含了Spar 阅读全文
posted @ 2022-03-10 15:11 Sjh_code 阅读(97) 评论(0) 推荐(0) 编辑
摘要: 一、安装Spark 1.检查基础环境hadoop,jdk 检查JDK echo $JAVA_HOME java -version 检查Hadoop start-dfs.sh jps 2.查看spark 3.配置文件 export SPARK_HOME=/usr/local/spark export 阅读全文
posted @ 2022-03-05 21:38 Sjh_code 阅读(57) 评论(0) 推荐(0) 编辑
摘要: 1.列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系,以图呈现并加以文字描述。 (1)HDFS,它是 Hadoop 技术体系中的核心基石,负责分布式存储数据,你可以把它理解为一个分布式的文件系统。此文件系统的主要特征是数据分散存储,一个文件存储在 HDFS 上时会被分成若干个数据块 阅读全文
posted @ 2022-02-27 13:44 Sjh_code 阅读(43) 评论(0) 推荐(0) 编辑