Hadoop 综合大作业

1.将爬虫大作业产生的csv文件上传到HDFS

此处选取的是rank.csv文件

启动hadoop

在hdfs上创建文件并上传rank.csv至hdfs

查看上传至hdfs上文件的前5条信息

2.对CSV文件进行预处理生成无标题文本文件

编辑pre_deal.sh文件进行数据的取舍处理

3.把hdfs中的文本文件最终导入到数据仓库Hive中

创建数据库dbltp并使用dbltp，创建表database_ltp

4.在Hive中查看并分析数据

查看在hive中的前10条信息

5.用Hive对爬虫大作业产生的进行数据分析，写一篇博客描述你的分析过程和分析结果。（10条以上的查询分析）

（1）前10条信息

（2）统计各标签的视频量

（3）统计各个up主的上榜视频量

（4）查看华农兄弟的上榜视频及播放量

（5）查看动画标签的视屏播放量

（6）查看舞蹈标签的视屏播放量

（7）统计各标签的上榜视屏量

（8）查看科技标签的视屏播放量

（9）查看游戏标签的视屏播放量

（10）查看视频名带番的视屏播放量

posted @ 2019-06-17 23:40 prous 阅读(162) 评论(0) 编辑收藏举报

刷新页面返回顶部

prous