Hadoop综合大作业

本次作业的要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3339

1.准备本次数据分析的数据(以下为爬虫大作业获取的CSV文件)

2.创建一个来运行案例的bigdatabase、dataset的文件夹

3.(1)将CSV文件上传到hdfs上

(2)查看文件中前10条信息,即可证明是否上传成功。

4.预处理文件,将CSV文件生成txt文件

(1)先删除第一行字段:

(2)生成txt文件,并查看前十条数据验证是否成功

 

5.将movies.txt文件上传的hdfs上

6.启动hdfs并启动MySQL服务

7.(1)在hive中创建数据库 dblxc:

(2)把hdfs中“/bigdatabase/dataset”目录下的数据加载到了数据仓库的hive中的:

(3)在hive中查看数据,查找表的前10条记录:

(4)在hive中查看数据,查找表的前10条记录(验证是否表数据录入成功)且查看本次2060条数据是否全部录入成功:

8.用hive进行数据分析

(1)查询豆瓣评分前20的电影的评价人数以及五星评分的比例

分析:豆瓣评分的高低主要与五星比例和评价人数有关,评价人数多且五星比例占80以上豆瓣评分就越高。

(2)查询豆瓣评分前20的电影中,那个国家占据最多:

分析:从数据分析结果可看出,美国占据最大,占了差不多50%多,看来美国的影片还是很受人们的喜爱。

(3)查询豆瓣评分前20的电影中,哪个时间段的影片占据比例较大

分析:数据显示,人们还是喜欢90年代的电影多一点嘛。

(4)查询所有电影2000条数据中,评价人数超过500000人的电影有多少。

(5)查询所有电影中,上映时间是2000后且豆瓣评分前20的电影。

分析:数据显示,2000后的前20的电影评分都很高,都在9.2以上。

(6)查询豆瓣评分9以上且评价人数超过500000的数量。

分析:豆瓣评分的高低,跟评价人数的多少没有正比的关系,可能与五星比例的多少有关。

(7)查询地点为美国的电影中,豆瓣分8.8以上的电影的数量。

分析:数据显示,在526条美国电影中,有69部电影的豆瓣分在8.8以上。

(8)查询电影上映时间是1990以后的,以及豆瓣分在8.8以上的电影数量。

分析:在409部老电影中,只有57部8.8评分以上,看来也只有几步老剧深得人们喜爱啊。

posted on 2019-06-16 00:55  李先灿  阅读(588)  评论(0编辑  收藏  举报

导航