作业要求:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3339
1.将爬虫大作业产生的csv文件上传到HDFS
- 在HDFS中创建/bigdatacase/dataset/a , /bigdatacase/dataset/bs文件夹 一个用于存放第一个评论个人信息文件,一个用于存放评论信息
- 将两个文件上传到HDFS
- 查看HDFS上两个文件内容
2.对CSV文件进行预处理生成无标题文本文件
- 生成pre_deal.sh文件,为每行记录增加一个id字段(让记录具有唯一性)
- 对文件进行预处理
- 预处理完成结果
3.把hdfs中的文本文件最终导入到数据仓库Hive中
- 启动hive ,创建数据库bdlab
- 创建数据库表,查询表中前十条数据
- 用户个人信息表创建查询
2.用户评论信息表创建查询
3.用户所在城市表
4.在Hive中查看并分析数据
1)评论用户性别分析
使用Hive对数据库的数据进行查询得出,观看此视频给出评论的用户中,男性和女性的比例是1:5。其中有668个评论用户的性别为“保密”,但我们可以根据已知比例得出看次视频中性别为“保密”的男性人数约为556人,而“保密”的女性人数为112人。可以看出对该电影感兴趣的程度上男生会比女生更加痴迷。
- 评论用户总人数
- 性别为“男”的评论数有505条
- 性别为“女”的评论数有107条
- 性别为“保密”的有668条
2)评论时间分析
根据用户的评论时间进行筛选,对时间进行分组统计,得出评论数最多的时间,因为前10条数据是一些错误码或为null,所以将其忽略。我们可以看到最多用户评论的时间是2019年4月28日。电影在25号,由于不是周末时间,所以进行观看的人数较少,而在28号是周末,本文发布的时间也是28号,所以在28号的评论用户人数是最多的,随着日期的增加在不断减少。
3)用户评论点赞数分析
在我们如今这个时代,点赞发表我们对一件事情的喜爱,同样的我们可以根据评论的点赞数知道大部分网民的想法,因此根据“likes”字段找出用户点赞数最多的评论信息。
4)用户粉丝数分析
用户的粉丝数的多少可以知道该用户的活跃度,粉丝数越高则会有越多的用户可以看到该用户的评论,会影响比较多人的看法,从而我们也可以根据粉丝量较多的用户进行深度的数据分析,可以了解大多数网名对该电影的看法。根据“fans”字段进行查询排序。
5)用户所在城市分析
评论该文章的用户所在城市的多少可以间接看出该城市的电影业的发展趋势以及该部电影在该地区的影响程度,由查询可以得出,在广东地区该电影的受欢迎程度是比较高的。根据city字段进行查询统计。
6)评论回复人数分析
评论回复人数的多少反应了较多用户是否对该用户的评论有所认同或不同,可以根据评论的回复人数知道该评论是否让用户有所认同感,也可以知道该用户的活跃程度。根据“rcontent”字段进行查询。
7)查询在2019年4月28日这天的前十条评论
8)查询2019年4月28日这天的评论数量
9)查询点赞数为5的前10条评论
10)查询回复人数为5的评论