Hadoop综合大作业
本次作业要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363
一、将爬虫大作业产生的csv文件上传到HDFS
二、对CSV文件进行预处理生成无标题文本文件
三、把hdfs中的文本文件最终导入到数据仓库Hive中
四、在Hive中查看并分析数据
五、用Hive对爬虫大作业产生的进行数据分析,写一篇博客描述你的分析过程和分析结果。(10条以上的查询分析)
1、查询总共有多少条评论数据
分析:从查询的数据可以看出,爬取到的《何以为家》评论中,总共有13778条评论数据。
2、查询不重复ID的评论数
分析:去掉重复id之后,查询到共有9293名用户参与《何以为家》这部电影的评论。
3、查询评论数前20名的城市
分析:从以上查询到的数据显示,北上广深的观影用户排名前四,深圳位居榜首。
4、查询各个评分等级的数量
分析:从以上评分等级的数量分布来看,评分4.0以上的占非常大一部分,可以看出大家对这部电影还是相当满意。
5、查询上映第一天的评论量
分析:查询到上映当天的评论数为896条,也就是上映的两个钟里就有近千名用户参与评论。
6、查询上映第一天评分为5分的评论数
分析:从上映当天896条数据中,查询出其中有604位观众给了5分评价,可见这部电影的评价是很高的。
7、查询评论次数最多的20个用户
分析:查询出评论数最多的前20个用户,由于评分只能评一次,推断出这20名用户至少4刷了这部电影。
8、查询城市中评分为5分的数量最多的前20名
分析:查询了评5分最多的前20名城市,其中北上广深由于参评用户多,固然居于前五名,成都值得一提,超过了上海。
9、查询城市中评分低于2分的数量最多的前20名
分析:查询了评分低于2分的用户数排名前20的城市发现,参评用户数第三的北京仅排到第11位,可见北京的观众反响还是不错的。
10、查询深圳评分等级的分布情况
分析:深圳作为参评人数最多的城市,从以上查询的数据可知,绝大部分的观众给出的分数都为3.5以上,总体上满意度还挺高。