Hadoop综合大作业
1.这是爬虫大作业的csv数据表,共计2万条数据左右。
2、导入数据表并且去掉头部的第一条数据,然后查看签名10条数据
3、再进行预处理,创建一个脚本文件pre_deal.sh,对数据表中的地址进行省份转换:
4、转换后的txt表,可以看见有中文的地区名
5、开启Hadoop和hive
6、在hdfs上创建一个userst文件夹
7、将之前转换后的txt文件上传到hdfs上面,然后查看内容
8、开启MySQL和hive
9、创建数据库dblab,并通过命令“use dblab”打开和使用数据库:
10、查找广州的评论
11、查找一共有多少人评论
12、查询8分以上用户的评论内容
13、查找深圳的用户
14、查询评论数量最多的城市
通过数据的分析可得出,对于漫威这种超级科幻大片来说,越大的城市对此最为感兴趣。
这也可以得出,多数年轻人来到大城市拼搏,而在二线城市和小城镇里,多数为老人和
小孩,所以对这种科幻大片的感冒程度也不高,所以评论数量也不会很多。