Hadoop综合大作业

1导入数据表并且去掉头部的第一条数据，然后查看签名5条数据

2 预处理，创建一个脚本文件pre_deal.sh，对数据表中的地址进行省份转换：

3转换后的txt表，可以看见有中文的地区名

4 开启Hadoop，hive

5 在hdfs上创建一个bigdatacase/dataset文件夹

6将之前转换后的txt文件上传到hdfs上面，然后查看内容

7开启MySQL和hive

8创建数据库dblab，并通过命令“use dblab”打开和使用数据库：

9查找用户地区为北京市，

10 查询用户年龄大于18并且小于30的，

分析：总共有700多条，占了3分之一的人数，看出该音乐的听众年龄范围还是很广的

11查询该音乐有多少评论数，

分析：总数是2108条评论，虽然不是很多，但也是可以用来分析数据的了

12查找没有设置性别的人数，

分析：598/2108 大约是4分之一的人都没有设置用户性别，绝大多数用户对于隐私还是比较看重的了

13查询点赞人数最多的前二十条数据，

分析：可以看出评论点赞最多的还是歌词本身的内容

14查找歌曲名字出现在评论的次数是多少，

分析：人们还是挺在意歌曲名字的

15查看剧中主角之一被提到的次数，

分析：被提到的次数只有个位数，可见该人们更倾向其他内容评论

16查看评论中的男生人数有多少，

分析：发现占比1058/2018 接近一半都是男生在评论，也就是男女比例差不多

17查看广东的男生评论人数有多少，

分析：广东地区听这首音乐的人不是太多

18 查看评论最常的字节长度（147个字节），

分析：评论的短小显示出该音乐的的热点并不是很高

posted @ 2019-06-14 18:14 一觉不觉已千年阅读(259) 评论(0) 收藏举报

刷新页面返回顶部