摘要: 可视化分析二 一.今日内容 编程绘制一个直方图,在图中输出影片A、B、C的周平均票房(文件中的所有涉及地区周票房总平均),Y轴表示票房收入,单位万元;X轴表示电影名称,电影名称的排列从左至右以A、B、C为准,要求将输出的直方图保存成图像文件ans0302.jpg,程序源代码保存成ans0302.py 阅读全文
posted @ 2020-07-31 17:07 晚暮听灯 阅读(99) 评论(0) 推荐(0) 编辑
摘要: 可视化分析一 一.今日内容 编程统计并输出影片A的上映天数和日平均票房(文件中的所有涉及地区总平均),程序源代码保存成ans0301.py,并将结果保存于ans0301.dat,要求ans0301.dat只包含1个long型数据和一个1个浮点型数据,浮点数据以万元为单位,保留6位小数,2个数以英文逗 阅读全文
posted @ 2020-07-31 16:14 晚暮听灯 阅读(116) 评论(0) 推荐(0) 编辑
摘要: 数据抓取之 hive分析 一.今日任务 根据本题给定的数据文件dat0204.log编写Hive命令建立数据表,并将dat0204.log导入所建立的数据表,然后编写Hive查询语句获取2014全年上映电影的数据记录,并将查询结果导入Hadoop平台的result目录。本题赛前抽取参数是dat020 阅读全文
posted @ 2020-07-29 16:58 晚暮听灯 阅读(110) 评论(0) 推荐(0) 编辑
摘要: Mapreduce程序分析 一.今日任务 向Hadoop平台提交日志文件dat0203.log,并使用streaming和MapReduce机制编制程序,统计日志文件dat0203.log的数据中一共包含多少部电影?本题的赛前抽取参数是dat0203.log文件,请参赛学生用hdfs命令查看输出的结 阅读全文
posted @ 2020-07-29 15:08 晚暮听灯 阅读(249) 评论(0) 推荐(0) 编辑
摘要: 数组抓取之二 爬虫分析 一.今日任务 根据本地网页完成爬虫爬取网页任务,分析各个电影的评分,并且求其平均分,并保留四位小数 二.任务源码分析 任务分析 根据任务要求,第一步先获取网页数据,之后根据网页的相关内容获取评分信息,最后求评分信息的平均分 程序源码 import resum = 0num = 阅读全文
posted @ 2020-07-23 16:49 晚暮听灯 阅读(75) 评论(0) 推荐(0) 编辑
摘要: 数据抓取一 一.今日任务 将数据文件 spider.log根据要求转存为 ans0201.csv 二.主要内容 任务分析以及实现方式 根据要求,我们需要取出spider.log文件中的相关字段,使用Python中的读取文件,每行数据都有相同的规律,按行读取,取出相应字段,然后创建csv文件,之后将读 阅读全文
posted @ 2020-07-22 16:52 晚暮听灯 阅读(109) 评论(0) 推荐(0) 编辑
摘要: 2020.7.17 hadoop文件目录创建,文件上传以及性能调优 一.工作内容 1.创建用户目录,创建文件上传目录 2.统计特定字符串出现次数,查看结果 3.性能调优 二.具体内容 1.创建用户目录 Hadoop fs -mkdir xxxx 创建上传目录input,并且上传文件 Hadoop f 阅读全文
posted @ 2020-07-17 16:46 晚暮听灯 阅读(159) 评论(1) 推荐(1) 编辑
摘要: Hadoop全分布搭建 一.今日任务 hadoop完全分布式系统搭建 二.任务内容 1.准备软件 hadoop-2.6.0-cdh5.7.0.tar.gz jdk-8u161-linux-x64.tar.gz Centos-6.5 VirtualBox-5.2.18-124319-Win.exe 配 阅读全文
posted @ 2020-07-15 10:50 晚暮听灯 阅读(866) 评论(0) 推荐(2) 编辑
摘要: 阅读全文
posted @ 2020-07-13 16:25 晚暮听灯 阅读(102) 评论(0) 推荐(0) 编辑
摘要: 需求分析 引言 1.1. 背景 目前全国范围内的高职院校普遍开设“大数据技术与应用”专业或方向。除大数据技术与应用专业学生外,计算机应用技术、计算机网络技术、软件技术、软件与信息服务、云计算技术与应用、电子商务技术等相关专业的学生,经过短期培训和备赛也可以参加大数据技术与应用赛项竞赛。 大数据技术与 阅读全文
posted @ 2020-07-13 15:50 晚暮听灯 阅读(893) 评论(0) 推荐(2) 编辑