作业要求: https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363

要求:

1.将爬虫大作业产生的csv文件上传到HDFS

 

 

 

2.对CSV文件进行预处理生成news文本文件

YuChuLi.sh文件:

 

 

3.把hdfs中的文本文件最终导入到数据仓库Hive中 

 

 

 4.在Hive中查看并分析数据

 

 

 5.用Hive对爬虫大作业产生的进行数据分析。(10条以上的查询分析)

 1)查询日期和时间:

 

2)计算总共有多少条数据:

 

 3)查询新闻标题 title 不重复的有多少条数据:

 

4)查询有哪几天的数据:

 

 5)查询日期为 2019-06-11 的前十条新闻标题 title:

 

 6)查询时间 00:00 的 title:

 

7)查询 2019-06-10  01:30-01:00 的数据 :

 

 

8)查询 2019-06-10 到 2019-06-12 共有多少条数据:

 

 9)查询 2019-06-10  22:00-01:00 有多少条数据 :

 

10)查询所有日期 在 01:30-01:00 之间有多少条数据:

 

11)查询说有时间里发布新闻最多的前十:

 

 12)查询新闻发布相同的前20:

 

分析结果:从时间上来看,新闻统一在凌晨0点左右和下午6点左右发布,这两个时间分别是地球两端最多人醒着的时间点;

      从新闻上来看2019年6月10号到16,荣桀的黄金原油行情分析、五粮液主管长期受贿赂等事件比较重要,得到多次新闻发布。

posted on 2019-06-20 00:09  浅锘晗  阅读(121)  评论(0编辑  收藏  举报