摘要: 1. 选择使用什么数据,有哪些字段,多大数据量。 美国新冠肺炎疫情数据集 字段:累计确诊人数、累计死亡人数、新增确诊人数、新增死亡人数、各州累计确诊人数、各州累计死亡人数和美国各州 2. 准备分析哪些问题?(8个以上) 美国每日的累计确诊病例数和死亡数 美国每日的新增确诊病例数 美国每日的新增死亡病 阅读全文
posted @ 2021-06-07 21:28 1After909 阅读(37) 评论(0) 推荐(0) 编辑
摘要: Spark 连接 MySQL 数据库 1. 安装启动检查 MySQL 服务 service mysql start sudo netstat -tap | grep mysql 2. Spark 连接 MySQL 驱动程序 pyspark \ --jars /usr/local/spark/jars 阅读全文
posted @ 2021-05-30 21:43 1After909 阅读(581) 评论(0) 推荐(0) 编辑
摘要: 学生课程分数的 Spark SQL 分析 读学生课程分数文件 chapter4-data01.txt,创建 DataFrame。 from pyspark.sql.types import * from pyspark.sql import Row # 下面生成“表头” fields = [Stru 阅读全文
posted @ 2021-05-20 04:07 1After909 阅读(599) 评论(0) 推荐(0) 编辑
摘要: 从 RDD 创建 DataFrame 1. pandas df 与 spark df 的相互转换 import pandas as pd import numpy as np arr = np.arange(9).reshape(-1,3) df_p = pd.DataFrame(arr) arr 阅读全文
posted @ 2021-05-14 04:13 1After909 阅读(146) 评论(0) 推荐(0) 编辑
摘要: Spark SQL 及其 DataFrame 的基本操作 Q & A 1. Spark SQL 出现的原因是什么? 关系数据库已经流行多年,能较好的满足各类商业公司的业务数据管理需求,但关系数据库在大数据时代已经不能满足各种新增的用户需求。用户需要从不同数据源执行各种操作(包括结构化和非结构化数据) 阅读全文
posted @ 2021-05-10 21:59 1After909 阅读(122) 评论(0) 推荐(0) 编辑
摘要: RDD 编程 一、词频统计: 1. 读文本文件生成 RDD lines >>> lines = sc.textFile("file:///usr/local/spark/mycode/rdd/word.txt") >>> lines.foreach(print) 2. 将一行一行的文本分割成单词 w 阅读全文
posted @ 2021-04-18 21:53 1After909 阅读(177) 评论(0) 推荐(0) 编辑
摘要: RDD 练习:词频统计 一、词频统计: 1. 读文本文件生成 RDD lines >>> lines = sc.textFile("file:///usr/local/spark/mycode/rdd/word.txt") >>> lines.foreach(print) 2. 将一行一行的文本分割 阅读全文
posted @ 2021-04-05 21:51 1After909 阅读(190) 评论(0) 推荐(0) 编辑
摘要: RDD 编程练习 一、filter, map, flatmap 练习: 1. 读文本文件生成 RDD lines >>> lines=sc.textFile("file:///usr/local/spark/mycode/rdd/word.txt") 2. 将一行一行的文本分割成单词 words > 阅读全文
posted @ 2021-03-31 21:30 1After909 阅读(77) 评论(0) 推荐(0) 编辑
摘要: Spark RDD 编程 1 准备文本文件 vim /usr/local/spark/mycode/rdd/word.txt Hadoop is good Spark is fast Spark is better 从文件创建 RDD lines=sc.textFile() lines = sc.t 阅读全文
posted @ 2021-03-28 21:26 1After909 阅读(53) 评论(0) 推荐(0) 编辑
摘要: Spark架构与运行流程 1. 阐述Hadoop生态系统中,HDFS, MapReduce, Yarn, Hbase及Spark的相互关系,为什么要引入Yarn和Spark Hadoop 是一个由 Apache 基金会开发的大数据分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,轻松地在 阅读全文
posted @ 2021-03-12 17:03 1After909 阅读(279) 评论(0) 推荐(0) 编辑