Hadoop综合大作业

1.这是爬虫大作业的csv数据表,共计2万条数据左右。

2、导入数据表并且去掉头部的第一条数据,然后查看签名10条数据

3、再进行预处理,创建一个脚本文件pre_deal.sh,对数据表中的地址进行省份转换:

4、转换后的txt表,可以看见有中文的地区名

5、开启Hadoop和hive

6、在hdfs上创建一个userst文件夹

7、将之前转换后的txt文件上传到hdfs上面,然后查看内容

 

8、开启MySQL和hive

9、创建数据库dblab,并通过命令“use dblab”打开和使用数据库:

10、查找广州的评论

 

11、查找一共有多少人评论

12、查询8分以上用户的评论内容

13、查找深圳的用户

14、查询评论数量最多的城市

通过数据的分析可得出,对于漫威这种超级科幻大片来说,越大的城市对此最为感兴趣。

这也可以得出,多数年轻人来到大城市拼搏,而在二线城市和小城镇里,多数为老人和

小孩,所以对这种科幻大片的感冒程度也不高,所以评论数量也不会很多。

 

posted @ 2019-06-17 09:00  xbk6  阅读(166)  评论(0编辑  收藏  举报