作业要求: https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363
要求:
1.将爬虫大作业产生的csv文件上传到HDFS
2.对CSV文件进行预处理生成news文本文件
YuChuLi.sh文件:
3.把hdfs中的文本文件最终导入到数据仓库Hive中
4.在Hive中查看并分析数据
5.用Hive对爬虫大作业产生的进行数据分析。(10条以上的查询分析)
1)查询日期和时间:
2)计算总共有多少条数据:
3)查询新闻标题 title 不重复的有多少条数据:
4)查询有哪几天的数据:
5)查询日期为 2019-06-11 的前十条新闻标题 title:
6)查询时间 00:00 的 title:
7)查询 2019-06-10 01:30-01:00 的数据 :
8)查询 2019-06-10 到 2019-06-12 共有多少条数据:
9)查询 2019-06-10 22:00-01:00 有多少条数据 :
10)查询所有日期 在 01:30-01:00 之间有多少条数据:
11)查询说有时间里发布新闻最多的前十:
12)查询新闻发布相同的前20:
分析结果:从时间上来看,新闻统一在凌晨0点左右和下午6点左右发布,这两个时间分别是地球两端最多人醒着的时间点;
从新闻上来看2019年6月10号到16,荣桀的黄金原油行情分析、五粮液主管长期受贿赂等事件比较重要,得到多次新闻发布。