大数据应用期末总评

 

本次作业来源于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363

 

Hadoop综合大作业 要求:

1.将爬虫大作业产生的csv文件上传到HDFS

2.对CSV文件进行预处理生成无标题文本文件

3.把hdfs中的文本文件最终导入到数据仓库Hive中

4.在Hive中查看并分析数据

5.用Hive对爬虫大作业产生的进行数据分析,写一篇博客描述你的分析过程和分析结果。(10条以上的查询分析)

 

1.将爬虫大作业产生的csv文件上传到HDFS

  • 在HDFS中创建/bigdatacase/dataset/a , /bigdatacase/dataset/bs文件夹 一个用于存放第一个评论个人信息文件,一个用于存放评论信息
  •  

  •  

    将两个文件上传到HDFS

  •  

  •  

     

    • 查看HDFS上文件内容
  • 2.对CSV文件进行预处理生成无标题文本文件

  •  

  •  

  • 3.把hdfs中的文本文件最终导入到数据仓库Hive中

    • 启动hive ,创建数据库bdlab
    •  

      •  创建数据库表,查询表中前十条数据
      1. 菜单信息表创建查询

 

4.在Hive中查看并分析数据

在菜谱天下爬取,看看菜谱天下共有多少道菜,看看能是否在网站上是否能学到很多做菜的办法

 

 

 

posted on 2019-06-20 21:18  聂健凯012  阅读(111)  评论(0编辑  收藏  举报

导航