方大师

2021年6月6日

摘要：大作业： 1.选择使用什么数据，有哪些字段，多大数据量。选择使用美国疫情数据；有日期、县、州、确诊人数、死亡人数 2.准备分析哪些问题？（8个以上）某个县每天有多少确诊病例和死亡病例每个县最多确证病例是哪一天有多少每个县最多死亡病例是哪一天有多少 5.19确证病例前十的州 5.19死亡病例前阅读全文

posted @ 2021-06-06 22:41 方大师阅读(23) 评论(0) 推荐(0)

2021年5月31日

09 spark连接mysql数据库

摘要： 1.安装启动检查Mysql服务。 netstat -tunlp (3306) 2.spark 连接mysql驱动程序。 cd /usr/local/hive/libls mysql*cp mysql-connector-java-5.1.40-bin.jar /usr/local/spark/jar 阅读全文

posted @ 2021-05-31 00:35 方大师阅读(53) 评论(0) 推荐(0)

2021年5月20日

08 学生课程分数的Spark SQL分析

摘要：生成表头from pyspark.sql.types import *from pyspark.sql import RowschemaString="name course score"fields=[StructField(field_name,StringType(),True) for fi 阅读全文

posted @ 2021-05-20 00:45 方大师阅读(61) 评论(0) 推荐(0)

2021年5月12日

07 从RDD创建DataFrame

摘要： 1.pandas df 与 spark df的相互转换 df_s=spark.createDataFrame(df_p) df_p=df_s.toPandas() 2. Spark与Pandas中DataFrame对比 http://www.lining0806.com/spark%E4%B8%8E 阅读全文

posted @ 2021-05-12 22:40 方大师阅读(41) 评论(0) 推荐(0)

2021年5月9日

06 Spark SQL 及其DataFrame的基本操作

摘要： 1.Spark SQL出现的原因是什么? SparkSQL是spark用来处理结构化的一个模块，它提供一个抽象的数据集DataFrame,并且是作为分布式SQL查询引擎的应用，可以将执行效率大大提升。 2.用spark.read 创建DataFrame 3.观察从不同类型文件创建DataFrame 阅读全文

posted @ 2021-05-09 21:45 方大师阅读(77) 评论(0) 推荐(0)

2021年4月18日

05 RDD编程

摘要：一、词频统计： 1.读文本文件生成RDD lines lines=sc.textFile("file:///usr/local/spark/mycode/rdd/word.txt") lines.foreach(print) 2.将一行一行的文本分割成单词 words flatmap() words 阅读全文

posted @ 2021-04-18 15:44 方大师阅读(141) 评论(0) 推荐(0)

2021年4月3日

05 RDD练习：词频统计

摘要：一、词频统计： 1.读文本文件生成RDD lines lines=sc.textFile("file:///usr/local/spark/mycode/rdd/word.txt") lines.foreach(print) 2.将一行一行的文本分割成单词 words flatmap() words 阅读全文

posted @ 2021-04-03 16:12 方大师阅读(191) 评论(0) 推荐(0)

2021年3月30日

04 RDD编程练习

摘要：一、filter,map,flatmap练习： 1.读文本文件生成RDD lines lines=sc.textFile("file:///usr/local/spark/mycode/rdd/word.txt") lines.collect() 2.将一行一行的文本分割成单词 words word 阅读全文

posted @ 2021-03-30 18:06 方大师阅读(90) 评论(0) 推荐(0)

2021年3月28日

Spark RDD编程

摘要： 1. 准备文本文件 vim /usr/local/spark/mycode/rdd/word.txt 从文件创建RDD lines=sc.textFile() 筛选出含某个单词的行 lines.filter() lambda 参数：条件表达式 2. 生成单词的列表从列表创建RDD words=sc. 阅读全文

posted @ 2021-03-28 14:17 方大师阅读(42) 评论(0) 推荐(0)

2021年3月12日

01 Spark架构与运行流程

摘要： 1. 阐述Hadoop生态系统中，HDFS, MapReduce, Yarn, Hbase及Spark的相互关系，为什么要引入Yarn和Spark。 HDFSHDFS（Hadoop分布式文件系统）源自于Google的GFS论文，发表于2003年10月，HDFS是GFS的实现版。HDFS是Hadoop 阅读全文

posted @ 2021-03-12 15:15 方大师阅读(38) 评论(0) 推荐(0)

公告