Hadoop综合大作业
作业要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3339
本次选取的是爬取歌曲《因你太美》的歌评数据
1.将爬虫大作业产生的csv文件上传到HDFS
2.对CSV文件进行预处理生成无标题文本文件
3.把hdfs中的文本文件最终导入到数据仓库Hive中
创建数据库:
创建comment表:
创建user表
4.在Hive中查看并分析数据
查询comment表:
查询userb表
5.用Hive对爬虫大作业产生的进行数据分析,写一篇博客描述你的分析过程和分析结果。(10条以上的查询分析)
(1)查询点赞数前20的评论
结论:点赞前20的评论还是比较认真的,大家有道理的观点还是挺认同的
(2)查询男女比例
0表示没有性别,1为男生,2为女生
结论:关注这首歌的女生会比男生多一些
(3) 查询去除未设置年龄的男用户的平均年龄
结论:去除未设置年龄的用户,得出听这个歌的大多数是19岁青年
(4)查询去除未设置年龄的女用户的平均年龄
结论:去除未设置年龄的用户,得出听这个歌的大多数是19岁青年
(5)评论用户的城市前十分布
分析:根据城市编号和用户的城市分布来看,用户主要分布在北京、广东、四川等地区
(6)查找男女用户等级分布情况
0表示未设置性别的用户,1表示已设置男用户,2表示已设置性别的女性用户
结论:网易云在同个等级的用户数量中,女生的数量比男生是多
(7)粉丝前10的用户
结论:粉丝前10的用户都会很据热点评论,比如蔡徐坤
(8)关注数前25的用户评论
结论:关注数前5的用户比较懂曲风,比较会分析音乐,所以关注数量也多
(9)点赞前20的男用户内容
结论:点赞数前5的男用户比较会评论关于热点的东西,比如蔡徐坤
(10)点赞前20的女用户内容
结论:点赞数前5的女用户也是比较会评论关于热点的东西,比如蔡徐坤