JestZLB - 博客园

2021年6月7日

摘要： 1.选择使用什么数据，有哪些字段，多大数据量。答：us-counties美新冠数据；字段：date，county，state，cases，deaths；数据量：158981条 2.准备分析哪些问题？（8个以上） 1.美国各州每日新增感染人数，各州每日新增死亡人数，各州每日新增治愈人数 2.美国各州阅读全文

posted @ 2021-06-07 19:26 JestZLB 阅读(55) 评论(0) 推荐(0)

2021年5月20日

学生课程分数的 Spark SQL 分析

摘要：学生课程分数的 Spark SQL 分析读学生课程分数文件 chapter4-data01.txt，创建 DataFrame from pyspark.sql.types import * from pyspark.sql import Row # 下面生成“表头” fields = [Struc 阅读全文

posted @ 2021-05-20 20:56 JestZLB 阅读(134) 评论(0) 推荐(0)

2021年5月10日

dataframe

摘要： 1.Spark SQL出现的原因是什么? 2.用spark.read 创建DataFrame 3.观察从不同类型文件创建DataFrame有什么异同? 4.观察Spark的DataFrame与Python pandas的DataFrame有什么异同？ spark_sql中DataFrame创建: 阅读全文

posted @ 2021-05-10 21:18 JestZLB 阅读(136) 评论(0) 推荐(0)

2021年4月5日

05 RDD练习：词频统计

摘要：一、词频统计： 1.读文本文件生成RDD lines 2.将一行一行的文本分割成单词 words flatmap() 3.全部转换为小写 lower() 4.去掉长度小于3的单词 filter() 5.去掉停用词 6.转换成键值对 map() 7.统计词频 reduceByKey() 二、学生课程分阅读全文

posted @ 2021-04-05 21:02 JestZLB 阅读(28) 评论(0) 推荐(0)

2021年3月31日

04 RDD编程练习

摘要：一、filter,map,flatmap练习： 1.读文本文件生成RDD lines 2.将一行一行的文本分割成单词 words 3.全部转换为小写 4.去掉长度小于3的单词 5.去掉停用词二、groupByKey练习 1.练习一的生成单词键值对 2.对单词进行分组 3.查看分组结果学生科目成绩阅读全文

posted @ 2021-03-31 20:57 JestZLB 阅读(66) 评论(0) 推荐(0)

2021年3月28日

Spark RDD编程作业

摘要： 1. 准备文本文件从文件创建RDD lines=sc.textFile()筛选出含某个单词的行 lines.filter()lambda 参数：条件表达式 2. 生成单词的列表从列表创建RDD words=sc.parallelize()筛选出长度大于2 的单词 words.filter() 3. 阅读全文

posted @ 2021-03-28 19:37 JestZLB 阅读(65) 评论(0) 推荐(0)

2020年11月22日

Hbase操作与编程使用

摘要：使用HBase Shell命令或使用HBase Java API完成： 1.任务：列出HBase所有的表的相关信息，例如表名；在终端打印出指定的表的所有记录数据；向已经创建好的表添加和删除指定的列族或列；清空指定的表的所有记录数据；统计表的行数。 2.关系型数据库中的表和数据（教材P9 阅读全文

posted @ 2020-11-22 19:19 JestZLB 阅读(100) 评论(0) 推荐(0)

2020年11月13日

Hadoop使用实例

摘要：必做 1.词频统计下载喜欢的电子书或大量文本数据，并保存在本地文本文件中编写map与reduce函数本地测试map与reduce 将文本数据上传至HDFS上用hadoop streaming提交任务查看运行结果计算结果取回到本地阅读全文

posted @ 2020-11-13 09:11 JestZLB 阅读(94) 评论(0) 推荐(0)

2020年10月24日

HDFS 操作命令作业5

摘要：本地文件系统创建一个文件，输入带姓名学号信息。查看新建文件所在目录查看新建文件内容将此文件上传到HDFS文件系统上的用户目录 HDFS上查看相应目录 HDFS上查看文件内容 HDFS上查看文件大小删除本地1步骤创建的文件将HDFS上的文件下载到本地查看本地文件目录阅读全文

posted @ 2020-10-24 15:52 JestZLB 阅读(134) 评论(0) 推荐(0)

2020年10月20日

Hadoop安装与 HDFS体系结构

摘要：阅读全文

posted @ 2020-10-20 19:53 JestZLB 阅读(71) 评论(0) 推荐(0)

姜理编

公告