大数据应用期末总评

 

作业来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363

作业要求:

Hadoop综合大作业 要求:

1.将爬虫大作业产生的csv文件上传到HDFS

2.对CSV文件进行预处理生成无标题文本文件

3.把hdfs中的文本文件最终导入到数据仓库Hive中

4.在Hive中查看并分析数据

5.用Hive对爬虫大作业产生的进行数据分析,写一篇博客描述你的分析过程和分析结果。(10条以上的查询分析)

作业内容:

1.将爬虫大作业产生的csv文件上传到HDFS

 

2.对CSV文件进行预处理生成无标题文本文件

 

3.把hdfs中的文本文件最终导入到数据仓库Hive中

 

 

4.在Hive中查看并分析数据

5.用Hive对爬虫大作业产生的进行数据分析,写一篇博客描述你的分析过程和分析结果。

 查询总共有多少个用户

查询评分大于3小于等于5的人

 

查询大于四小于五的人数

 查询小于2分的用户

 

查询电影的平均分

 分析结果:这部电影总分5分,但是平均分只有2分左右,说明用户的评价不是特别的高,而且评价用户的人数不在少数,可以给各位想看这部电影的人一个警告,这是个烂片

总结:电影自从发明出来,从最早的黑白默片到现在大荧幕上观赏的各类影片,可以说,到目前未知,电影以及成为了人们日常生活中不可缺少的一种娱乐方式。

我们大部分人的日常生活很单一,对学习工作中的问题早就形成了特定的思维方式,俗称套路。我们遇到重复问题的时候可以直接套用上次的解决方案,但是一旦进入新环境,没有以往的知识体系做支撑,大多数人就会不知所措。电影就是为了让思维从枯燥的现实世界中走出来,走到一个从未思考过的领域。电影就是这么一个东西,它首先设定一个你不熟悉的大环境,然后编剧们用死了一地的脑细胞告诉你,原来还有这种操作?我们对电影进行分析,实现的思路是访问豆瓣最新的电影,然后使用requests库对它进行请求,获取到服务端返回的数据后,依据获取的数据,分别取出电影的名称,电影的评分,然后形成可视化的东西,这样在可视化的界面中,就可以看到最近电影哪些是比较受欢迎的并且它的评分比较高,对我们出去看电影来说,也是一个刚需。

不足之处:我发现在hive中显示数据的时候出现了null空值,然后我对CSV文件进行预处理生成无标题文本文件,解决了这个问题

 

posted @ 2019-06-04 17:19  钟金晖  阅读(261)  评论(0编辑  收藏  举报