Hadoop综合大作业

 作业要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3339

本次选取的是爬取歌曲《因你太美》的歌评数据

1.将爬虫大作业产生的csv文件上传到HDFS

2.对CSV文件进行预处理生成无标题文本文件

3.把hdfs中的文本文件最终导入到数据仓库Hive中

创建数据库:

创建comment表:

 

创建user表

4.在Hive中查看并分析数据

查询comment表:

 

 查询userb表

5.用Hive对爬虫大作业产生的进行数据分析,写一篇博客描述你的分析过程和分析结果。(10条以上的查询分析)

(1)查询点赞数前20的评论

结论:点赞前20的评论还是比较认真的,大家有道理的观点还是挺认同的

(2)查询男女比例

0表示没有性别,1为男生,2为女生

结论:关注这首歌的女生会比男生多一些

(3) 查询去除未设置年龄的男用户的平均年龄

结论:去除未设置年龄的用户,得出听这个歌的大多数是19岁青年

(4)查询去除未设置年龄的女用户的平均年龄

结论:去除未设置年龄的用户,得出听这个歌的大多数是19岁青年

(5)评论用户的城市前十分布

分析:根据城市编号和用户的城市分布来看,用户主要分布在北京、广东、四川等地区

(6)查找男女用户等级分布情况

 0表示未设置性别的用户,1表示已设置男用户,2表示已设置性别的女性用户

结论:网易云在同个等级的用户数量中,女生的数量比男生是多

(7)粉丝前10的用户

结论:粉丝前10的用户都会很据热点评论,比如蔡徐坤

(8)关注数前25的用户评论

结论:关注数前5的用户比较懂曲风,比较会分析音乐,所以关注数量也多

(9)点赞前20的男用户内容

结论:点赞数前5的男用户比较会评论关于热点的东西,比如蔡徐坤

(10)点赞前20的女用户内容

 

结论:点赞数前5的女用户也是比较会评论关于热点的东西,比如蔡徐坤

posted on 2019-06-17 12:11  冷冻  阅读(306)  评论(0编辑  收藏  举报

导航