hadoop综合大作业

作业要求来自:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3339

 本次选取的是爬取歌曲《Five Hours》的歌评数据

1.将爬虫大作业产生的csv文件上传到HDFS

2.对CSV文件进行预处理生成无标题文本文件

3.把hdfs中的文本文件最终导入到数据仓库Hive中

创建数据库:

创建pinlun表:

创建yonghu表:

4.在Hive中查看并分析数据

查询pinlun表:

查询yonghu表:

5.用Hive对爬虫大作业产生的进行数据分析,写一篇博客描述你的分析过程和分析结果。(10条以上的查询分析)

由于本次试验的数据未经过有效清洗,所以存在部分高指标的数据(这是被爬取的用户刷的),所以可能会对数据的分析有一定的影响,但时间紧促,望谅解。

(1)查询点赞数前15的评论

分析:在点赞最多的评论中,大多是在描述自己的生活情况,和写口嗨诗,可以看出网友对这首电音的素质的肯定和其节奏的优秀。

(2)查询点赞数前15的用户信息

(3)查询男女数量比例

分析:其中0表示没有设置性别,NULL是数据的错误为无意义的,1表示性别为男性,2表示性别为女性,从数量上可以看出男性对这首歌更感兴趣一些。

(4)男性点赞数前15的评论

分析:在男性点赞前15的评论中(除去重复),都是在写在听这首电音时内心的独白,证明这首音乐的确能够使人的思维变得积极和亢奋。

(5)女性点赞数前15的评论

 

分析:在女性点赞前15的评论中(除去重复),都是在描述日常生活的情景,说明这首音乐也可以让人放松精神。

(6)评论用户中的平均等级

分析:在这首歌的评论中,用户的平均等级为六点多,从网易云音乐的用户等级制度来看,评论的用户使用这个平台时间挺长的。

(7)评论用户的等级分布

分析:在等级分布来看,用户等级在6、7、8级的比较多,可以看出大部分都是音乐爱好者。

(8)评论用户中的平均年龄

分析:听众年龄大多数集中在19-20岁,证明这首音乐的确受到年轻人的喜爱。

(9)评论用户的城市前十分布

分析:(NULL为预处理错误,无意义)根据城市编号和用户的城市分布来看,用户主要分布在北京、广东、上海等地区。

(10)粉丝数前15的用户的评论

分析:(除去重复数据后)一些粉丝数较多的用户也对这首歌的评价也相对积极,说明这首歌确实很不错吧。

 (11)关注数前15的用户评论

分析:(除去重复数据)在关注数前15的用户评论中,出现了相同的用户评论了多条评论,说明这些用户热衷于评论音乐

(12)评论用户中平均听歌数量

 

分析:在评论用户中,平均听歌数量接近两千,可以说他们都非常喜爱音乐了。

posted @ 2019-06-17 20:47  黄观国  阅读(261)  评论(0编辑  收藏  举报