大数据应用期末总评
豆瓣电影网-《复仇者联盟4》影评
一:将爬虫大作业产生的csv文件上传到HDFS
首先我把爬到的评论先进行预处理
然后上传到HDFS里面
查看前5条评论,看看是否上传成功
二:对数据进行分割处理
执行deal.sh 对数据进行分割预处理并输出形成lht.txt
三.把hdfs中的文本文件最终导入到数据仓库Hive中
查看数据前5显示出来,处理数据之后,相比起之前看起来整齐很多
四.在Hive中查看并分析数据
启动hive之后进行创建数据库再创表,表的名字为“bbb”,并且定义表的属性
五.用Hive对爬虫大作业产生的进行数据分析
对爬虫大作业生成的csv进行筛选:分别对不同的评分进行统计。
5分
4分
3分
2分
1分
从上面的统计结果可以看出,这部电影的评分是相当的高的,5分和4分的人数占了98%,而低于或等于3分的只占了2%。
统计了一下平均的评分,达到了4.56的高分,证明这电影是票房冠军的有力竞争者
统计出评分5分的忠实粉丝最多的15个城市,从高到低的顺序排列
可以看出很多的忠实粉丝都在一线城市。
评分星级大于4的粉丝集中所在的排名前20的城市。
综上可以看出,一线城市观看的人数是比较多的,这可以侧面反应出一线城市的电影院数量和场次都是很多的,也可以反映出商家的电影宣传是做的很好的。
观众观看时间分析:
电影的上映时间是4月26日,但是评论时间最多的却是6月1日附近,说明大多是观看的人都没有时间第一时间观看电影,而且选择在节假日去观看电影。
生成词云