Hadoop综合大作业

本次作业的要求来自于：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3339

1.准备本次数据分析的数据（以下为爬虫大作业获取的CSV文件）

2.创建一个来运行案例的bigdatabase、dataset的文件夹

3.（1）将CSV文件上传到hdfs上

（2）查看文件中前10条信息，即可证明是否上传成功。

4.预处理文件，将CSV文件生成txt文件

（1）先删除第一行字段：

（2）生成txt文件，并查看前十条数据验证是否成功

5.将movies.txt文件上传的hdfs上

6.启动hdfs并启动MySQL服务

7.（1）在hive中创建数据库 dblxc：

（2）把hdfs中“/bigdatabase/dataset”目录下的数据加载到了数据仓库的hive中的：

（3）在hive中查看数据，查找表的前10条记录：

（4）在hive中查看数据，查找表的前10条记录（验证是否表数据录入成功）且查看本次2060条数据是否全部录入成功：

8.用hive进行数据分析

（1）查询豆瓣评分前20的电影的评价人数以及五星评分的比例

分析：豆瓣评分的高低主要与五星比例和评价人数有关，评价人数多且五星比例占80以上豆瓣评分就越高。

（2）查询豆瓣评分前20的电影中，那个国家占据最多：

分析：从数据分析结果可看出，美国占据最大，占了差不多50%多，看来美国的影片还是很受人们的喜爱。

（3）查询豆瓣评分前20的电影中，哪个时间段的影片占据比例较大

分析：数据显示，人们还是喜欢90年代的电影多一点嘛。

（4）查询所有电影2000条数据中，评价人数超过500000人的电影有多少。

（5）查询所有电影中，上映时间是2000后且豆瓣评分前20的电影。

分析：数据显示，2000后的前20的电影评分都很高，都在9.2以上。

（6）查询豆瓣评分9以上且评价人数超过500000的数量。

分析：豆瓣评分的高低，跟评价人数的多少没有正比的关系，可能与五星比例的多少有关。

（7）查询地点为美国的电影中，豆瓣分8.8以上的电影的数量。

分析：数据显示，在526条美国电影中，有69部电影的豆瓣分在8.8以上。

（8）查询电影上映时间是1990以后的，以及豆瓣分在8.8以上的电影数量。

分析：在409部老电影中，只有57部8.8评分以上，看来也只有几步老剧深得人们喜爱啊。

posted on 2019-06-16 00:55 李先灿阅读(632) 评论(0) 收藏举报

刷新页面返回顶部

导航

公告