树亭 - 博客园

8. SparkSQL综合作业

摘要：综合练习：学生课程分数网盘下载sc.txt文件，分别用RDD操作、DataFrame操作和spark.sql执行SQL语句实现以下数据分析: 总共有多少学生？总共开设了多少门课程？每个学生选修了多少门课？每门课程有多少个学生选？每门课程>95分的学生人数课程'Python'有多少个100 阅读全文

posted @ 2022-05-27 10:36 树亭阅读(46) 评论(2) 推荐(0) 编辑

7.Spark SQL

摘要： 1.分析SparkSQL出现的原因，并简述SparkSQL的起源与发展。 Spark SQL是Spark用来处理结构化数据的一个模块，它提供了一个叫作Data Frame的编程抽象结构数据模型(即带有Schema信息的RDD)，Spark SQL作为分布式SQL查询引擎，让用户可以通过SQL、Dat 阅读全文

posted @ 2022-05-10 18:29 树亭阅读(108) 评论(0) 推荐(0) 编辑

6. RDD综合练习：更丰富的操作

摘要：集合运算练习 union()， intersection()，subtract(), cartesian() 三、学生课程分数网盘下载sc.txt文件，通过RDD操作实现以下数据分析: 持久化 scm.cache() 总共有多少学生？map(), distinct(), count() 开设了多少阅读全文

posted @ 2022-04-19 23:22 树亭阅读(36) 评论(0) 推荐(0) 编辑

5.RDD操作综合实例

摘要： 1、词频统计 A. 分步骤实现 1.准备文件下载小说或长篇新闻稿上传到hdfs上 2.读文件创建RDD 3.分词 4.标点符号[re.split(pattern,str),flatMap()] # 导入正则表达式re库，使用re.split分词 # 再次分词，清楚去标点符号后产生的无用数据排除阅读全文

posted @ 2022-04-02 14:33 树亭阅读(82) 评论(0) 推荐(0) 编辑

4.RDD操作

摘要： 1. RDD创建从本地文件系统中加载数据创建RDD 图1.1 查看文本信息图1.2 本地文件加载数据从HDFS加载数据创建RDD # 启动HDFS start-all.sh # 查看HDFS文件 hdfs dfs -ls 查看的文件目录图2.1 启动HDFS # 上传文件到HDFS hdfs 阅读全文

posted @ 2022-03-18 19:16 树亭阅读(25) 评论(0) 推荐(0) 编辑

3.Spark设计与运行原理，基本操作

摘要： 1.Spark已打造出结构一体化、功能多样化的大数据生态系统，请用图文阐述Spark生态系统的组成及各组件的功能。 1、Spark Core：Spark的核心组件，其操作的数据对象是RDD（弹性分布式数据集）可以简单认为Spark Core就是Spark生态系统中的离线计算框架。 2、 Spark 阅读全文

posted @ 2022-03-09 14:59 树亭阅读(99) 评论(0) 推荐(0) 编辑

2.安装Spark与Python练习

摘要：一、安装Spark 检查基础环境hadoop,jdk 配置文件、环境变量 #配置环境 vim /usr/local/spark/conf/spark-env.sh # 修改环境变量 vim ~/.bashrc # 生效 source ~/.bashrc 试运行python代码二、Python编程阅读全文

posted @ 2022-03-06 16:12 树亭阅读(29) 评论(0) 推荐(1) 编辑

1.大数据概述

摘要： 1.列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系，以图呈现并加以文字描述。生态系统是一个由许多组件组成的生态链，只有持续开发，Hadoop生态系统才能不断成熟，现在有多个子项目，核心HDFS和MapReduce，以及Hadoop生态系统、zoopker、hbae、hive、p 阅读全文

posted @ 2022-02-23 13:45 树亭阅读(42) 评论(0) 推荐(0) 编辑

刘淑婷