1After909

2021年6月7日

摘要： 1. 选择使用什么数据，有哪些字段，多大数据量。美国新冠肺炎疫情数据集字段：累计确诊人数、累计死亡人数、新增确诊人数、新增死亡人数、各州累计确诊人数、各州累计死亡人数和美国各州 2. 准备分析哪些问题？（8个以上）美国每日的累计确诊病例数和死亡数美国每日的新增确诊病例数美国每日的新增死亡病阅读全文

posted @ 2021-06-07 21:28 1After909 阅读(37) 评论(0) 推荐(0) 编辑

2021年5月30日

Spark 连接 MySQL 数据库

摘要： Spark 连接 MySQL 数据库 1. 安装启动检查 MySQL 服务 service mysql start sudo netstat -tap | grep mysql 2. Spark 连接 MySQL 驱动程序 pyspark \ --jars /usr/local/spark/jars 阅读全文

posted @ 2021-05-30 21:43 1After909 阅读(581) 评论(0) 推荐(0) 编辑

2021年5月20日

学生课程分数的 Spark SQL 分析

摘要：学生课程分数的 Spark SQL 分析读学生课程分数文件 chapter4-data01.txt，创建 DataFrame。 from pyspark.sql.types import * from pyspark.sql import Row # 下面生成“表头” fields = [Stru 阅读全文

posted @ 2021-05-20 04:07 1After909 阅读(599) 评论(0) 推荐(0) 编辑

2021年5月14日

从 RDD 创建 DataFrame

摘要：从 RDD 创建 DataFrame 1. pandas df 与 spark df 的相互转换 import pandas as pd import numpy as np arr = np.arange(9).reshape(-1,3) df_p = pd.DataFrame(arr) arr 阅读全文

posted @ 2021-05-14 04:13 1After909 阅读(146) 评论(0) 推荐(0) 编辑

2021年5月10日

Spark SQL 及其 DataFrame 的基本操作

摘要： Spark SQL 及其 DataFrame 的基本操作 Q & A 1. Spark SQL 出现的原因是什么? 关系数据库已经流行多年，能较好的满足各类商业公司的业务数据管理需求，但关系数据库在大数据时代已经不能满足各种新增的用户需求。用户需要从不同数据源执行各种操作（包括结构化和非结构化数据）阅读全文

posted @ 2021-05-10 21:59 1After909 阅读(122) 评论(0) 推荐(0) 编辑

2021年4月18日

RDD 编程

摘要： RDD 编程一、词频统计： 1. 读文本文件生成 RDD lines >>> lines = sc.textFile("file:///usr/local/spark/mycode/rdd/word.txt") >>> lines.foreach(print) 2. 将一行一行的文本分割成单词 w 阅读全文

posted @ 2021-04-18 21:53 1After909 阅读(177) 评论(0) 推荐(0) 编辑

2021年4月5日

RDD练习：词频统计

摘要： RDD 练习：词频统计一、词频统计： 1. 读文本文件生成 RDD lines >>> lines = sc.textFile("file:///usr/local/spark/mycode/rdd/word.txt") >>> lines.foreach(print) 2. 将一行一行的文本分割阅读全文

posted @ 2021-04-05 21:51 1After909 阅读(190) 评论(0) 推荐(0) 编辑

2021年3月31日

RDD 编程练习

摘要： RDD 编程练习一、filter, map, flatmap 练习： 1. 读文本文件生成 RDD lines >>> lines=sc.textFile("file:///usr/local/spark/mycode/rdd/word.txt") 2. 将一行一行的文本分割成单词 words > 阅读全文

posted @ 2021-03-31 21:30 1After909 阅读(77) 评论(0) 推荐(0) 编辑

2021年3月28日

Spark RDD 编程

摘要： Spark RDD 编程 1 准备文本文件 vim /usr/local/spark/mycode/rdd/word.txt Hadoop is good Spark is fast Spark is better 从文件创建 RDD lines=sc.textFile() lines = sc.t 阅读全文

posted @ 2021-03-28 21:26 1After909 阅读(53) 评论(0) 推荐(0) 编辑

2021年3月12日

Spark架构与运行流程

摘要： Spark架构与运行流程 1. 阐述Hadoop生态系统中，HDFS, MapReduce, Yarn, Hbase及Spark的相互关系，为什么要引入Yarn和Spark Hadoop 是一个由 Apache 基金会开发的大数据分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，轻松地在阅读全文

posted @ 2021-03-12 17:03 1After909 阅读(279) 评论(0) 推荐(0) 编辑

公告