摘要:
题目要求: 阅读全文
摘要:
1.安装 Flume Flume 是 Cloudera 提供的一个分布式、可靠、可用的系统,它能够将不同数据源的海量 日志数据进行高效收集、聚合、移动,最后存储到一个中心化数据存储系统中。Flume 的 核心是把数据从数据源收集过来,再送到目的地。请到 Flume 官网下载 Flume1.7.0 安 阅读全文
摘要:
今天整了一下前端的界面,在搞导航栏完成了一部分,框架搭建起来了 暂时放下了第五个实验的第2题,开始做第三题: 第三题实验内容: 3. 编程实现利用 DataFrame 读写 MySQL 的数据 (1)在 MySQL 数据库中新建数据库 sparktest,再创建表 employee,包含下面两行数据 阅读全文
摘要:
今天自己上网爬取了关于新型肺炎的疫情 程序为: import requestsimport reimport jsonimport timeimport csvimport datetimeimport ostime1 = datetime.datetime.now().strftime('%Y-% 阅读全文
摘要:
3.编写独立应用程序实现求平均值问题 每个输入文件表示班级学生某个学科的成绩,每行内容由两个字段组成,第一个是学生 名字,第二个是学生的成绩;编写 Spark 独立应用程序求出所有学生的平均成绩,并输出到 一个新文件中。下面是输入文件和输出文件的一个样例,供参考。 Algorithm 成绩: 小明 阅读全文
摘要:
2.编程实现将 RDD 转换为 DataFrame 源文件内容如下(包含 id,name,age): 1,Ella,36 2,Bob,29 3,Jack,29 请将数据复制保存到 Linux 系统中,命名为 employee.txt,实现从 RDD 转换得到 DataFrame,并按“id:1,na 阅读全文
摘要:
今天开始做Spark的第5个实验,第一个题目还可以,完成了第一小题 在Spark的shell模式下依次输入以下命令: 各个小题的代码如下 阅读全文
摘要:
今天只完成了第四个实验的第2题,这也是一下午的结果,今天一下午彻底自闭了,程序总是出错,并且错误还一直解决不了。今天效率低的原因是一直报数组越界的错误,可是怎么看数据文件都没有错误。最后的最后,也就是刚才,无奈之下将文件重新写了一遍,这样结果才终于对了。 第二题实验内容: 2.编写独立应用程序实现数 阅读全文