刘淑婷

2022年5月27日 #

8. SparkSQL综合作业

摘要: 综合练习:学生课程分数 网盘下载sc.txt文件,分别用RDD操作、DataFrame操作和spark.sql执行SQL语句实现以下数据分析: 总共有多少学生? 总共开设了多少门课程? 每个学生选修了多少门课? 每门课程有多少个学生选? 每门课程>95分的学生人数 课程'Python'有多少个100 阅读全文

posted @ 2022-05-27 10:36 树亭 阅读(46) 评论(2) 推荐(0) 编辑

2022年5月10日 #

7.Spark SQL

摘要: 1.分析SparkSQL出现的原因,并简述SparkSQL的起源与发展。 Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个叫作Data Frame的编程抽象结构数据模型(即带有Schema信息的RDD),Spark SQL作为分布式SQL查询引擎,让用户可以通过SQL、Dat 阅读全文

posted @ 2022-05-10 18:29 树亭 阅读(108) 评论(0) 推荐(0) 编辑

2022年4月19日 #

6. RDD综合练习:更丰富的操作

摘要: 集合运算练习 union(), intersection(),subtract(), cartesian() 三、学生课程分数 网盘下载sc.txt文件,通过RDD操作实现以下数据分析: 持久化 scm.cache() 总共有多少学生?map(), distinct(), count() 开设了多少 阅读全文

posted @ 2022-04-19 23:22 树亭 阅读(36) 评论(0) 推荐(0) 编辑

2022年4月2日 #

5.RDD操作综合实例

摘要: 1、词频统计 A. 分步骤实现 1.准备文件 下载小说或长篇新闻稿 上传到hdfs上 2.读文件创建RDD 3.分词 4.标点符号[re.split(pattern,str),flatMap()] # 导入正则表达式re库,使用re.split分词 # 再次分词,清楚去标点符号后产生的无用数据 排除 阅读全文

posted @ 2022-04-02 14:33 树亭 阅读(82) 评论(0) 推荐(0) 编辑

2022年3月18日 #

4.RDD操作

摘要: 1. RDD创建 从本地文件系统中加载数据创建RDD 图1.1 查看文本信息 图1.2 本地文件加载数据 从HDFS加载数据创建RDD # 启动HDFS start-all.sh # 查看HDFS文件 hdfs dfs -ls 查看的文件目录 图2.1 启动HDFS # 上传文件到HDFS hdfs 阅读全文

posted @ 2022-03-18 19:16 树亭 阅读(25) 评论(0) 推荐(0) 编辑

2022年3月9日 #

3.Spark设计与运行原理,基本操作

摘要: 1.Spark已打造出结构一体化、功能多样化的大数据生态系统,请用图文阐述Spark生态系统的组成及各组件的功能。 1、Spark Core:Spark的核心组件,其操作的数据对象是RDD(弹性分布式数据集)可以简单认为Spark Core就是Spark生态系统中的离线计算框架。 2、 Spark 阅读全文

posted @ 2022-03-09 14:59 树亭 阅读(99) 评论(0) 推荐(0) 编辑

2022年3月6日 #

2.安装Spark与Python练习

摘要: 一、安装Spark 检查基础环境hadoop,jdk 配置文件、 环境变量 #配置环境 vim /usr/local/spark/conf/spark-env.sh # 修改环境变量 vim ~/.bashrc # 生效 source ~/.bashrc 试运行python代码 二、Python编程 阅读全文

posted @ 2022-03-06 16:12 树亭 阅读(29) 评论(0) 推荐(1) 编辑

2022年2月23日 #

1.大数据概述

摘要: 1.列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系,以图呈现并加以文字描述。 生态系统是一个由许多组件组成的生态链,只有持续开发,Hadoop生态系统才能不断成熟,现在有多个子项目,核心HDFS和MapReduce,以及Hadoop生态系统、zoopker、hbae、hive、p 阅读全文

posted @ 2022-02-23 13:45 树亭 阅读(42) 评论(0) 推荐(0) 编辑

导航