大数据应用期末总作业

本次作业的要求来自:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3339


 

Hadoop综合大作业 要求:

1.将爬虫大作业产生的csv文件上传到HDFS

此处选取的是爬虫大作业——豆瓣上排名前250的电影评价

此处选取的是douban.csv文件,共计32829条数据。

 

 

首先,在本地中创建一个/usr/local/bigdatacase/dataset 文件夹。 然后把douban250.csv文件复制到这个文件夹中,然后

删除第一行记录以及 显示前五行记录 如下图所示:

 

对CSV文件进行预处理生成无标题文本文件

编辑pre_deal.sh文件对csv文件进行数据预处理,使得pre_deal.sh中的内容生效。如下图所示:

 

 查看user_table.txt里面的内容,如下图所示:

 

将user_table.txt 存放在/usr/local/文件夹下赋予bigdatacase权限 如下图所示:

接着,启动hadoop, 在HDFS上建立/bigdatacase/dataset文件夹

并且把user_table.txt上传到HDFS中 步骤如下:

 查看HDFS中的User_table.txt的前10条记录,如下图所示:

启动MySQL数据库、启动Hadoop、启动Hive,进入命令行 在Hive中创建一个数据库dblab,如下图所示:

 创建外部表,把HDFS中的 /bigdatacase/dataset 目录下的数据加载到Hive仓库中,

并且显示 bigdata_user 前十条数据. 如下图所示:

 

  查询前10位豆瓣用户对电影的评分, 如下图所示:

查询电影评分为9分 的用户对电影的评价。 如下图所示:

查看豆瓣中电影评分小于8分的电影 如下图所示:

查看豆瓣中电影评分少于8分的电影的文字评价。如下图所示:

 

 总结:通过这学期的学习我对Hadoop的 mapreduce还有hdfs文件系统有了更加深层次的理解,也对hive的创建数据库、

结构化查询的功能更加深入了解。 更加学习了python.明白了这门课程的真正用途,这学期的课学到了很多新的知识,也

复习了以前的知识,让我对计算机有了更加深层次的理解!

posted @ 2019-06-14 08:46  unilee  阅读(540)  评论(0编辑  收藏  举报