hadoop综合大作业
作业要求来自:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3339
本次选取的是爬取歌曲《Five Hours》的歌评数据
1.将爬虫大作业产生的csv文件上传到HDFS
2.对CSV文件进行预处理生成无标题文本文件
3.把hdfs中的文本文件最终导入到数据仓库Hive中
创建数据库:
创建pinlun表:
创建yonghu表:
4.在Hive中查看并分析数据
查询pinlun表:
查询yonghu表:
5.用Hive对爬虫大作业产生的进行数据分析,写一篇博客描述你的分析过程和分析结果。(10条以上的查询分析)
由于本次试验的数据未经过有效清洗,所以存在部分高指标的数据(这是被爬取的用户刷的),所以可能会对数据的分析有一定的影响,但时间紧促,望谅解。
(1)查询点赞数前15的评论
分析:在点赞最多的评论中,大多是在描述自己的生活情况,和写口嗨诗,可以看出网友对这首电音的素质的肯定和其节奏的优秀。
(2)查询点赞数前15的用户信息
(3)查询男女数量比例
分析:其中0表示没有设置性别,NULL是数据的错误为无意义的,1表示性别为男性,2表示性别为女性,从数量上可以看出男性对这首歌更感兴趣一些。
(4)男性点赞数前15的评论
分析:在男性点赞前15的评论中(除去重复),都是在写在听这首电音时内心的独白,证明这首音乐的确能够使人的思维变得积极和亢奋。
(5)女性点赞数前15的评论
分析:在女性点赞前15的评论中(除去重复),都是在描述日常生活的情景,说明这首音乐也可以让人放松精神。
(6)评论用户中的平均等级
分析:在这首歌的评论中,用户的平均等级为六点多,从网易云音乐的用户等级制度来看,评论的用户使用这个平台时间挺长的。
(7)评论用户的等级分布
分析:在等级分布来看,用户等级在6、7、8级的比较多,可以看出大部分都是音乐爱好者。
(8)评论用户中的平均年龄
分析:听众年龄大多数集中在19-20岁,证明这首音乐的确受到年轻人的喜爱。
(9)评论用户的城市前十分布
分析:(NULL为预处理错误,无意义)根据城市编号和用户的城市分布来看,用户主要分布在北京、广东、上海等地区。
(10)粉丝数前15的用户的评论
分析:(除去重复数据后)一些粉丝数较多的用户也对这首歌的评价也相对积极,说明这首歌确实很不错吧。
(11)关注数前15的用户评论
分析:(除去重复数据)在关注数前15的用户评论中,出现了相同的用户评论了多条评论,说明这些用户热衷于评论音乐
(12)评论用户中平均听歌数量
分析:在评论用户中,平均听歌数量接近两千,可以说他们都非常喜爱音乐了。