大数据应用期末总评
1.将爬虫大作业产生的csv文件上传到HDFS
一、建立一个运行本案例的目录database,data并查看是否创建成功
二、将本地文件csv上传到HDFS并查看是否上传成功
三、查看文件:
2.对CSV文件进行预处理生成无标题文本文件二、预处理文件,将csv生成txt文件:
一、预处理文件,将csv生成txt文件:
3.把hdfs中的文本文件最终导入到数据仓库Hive中
一、启动hdfs:
二、查看是否上传成功,本文件为ddd.txt
三、启动数据库:
四、在hive中创建数据库dbhhh:
五、使用dbhhh数据库创建表格命名为ddd
4.在Hive中查看并分析数据
一、在hive中查看数据,查找表的前10条记录:
二、筛选评论数量较多的标题,查看人们比较关心的热门问题
三、筛选结合阅读量较高的标题
筛选结合阅读量和评论量,可以得到人们感兴趣的人们话题为东兴证券的各类资金问题较感兴趣
5.用Hive对爬虫大作业产生的进行数据分析,写一篇博客描述你的分析过程和分析结果。(10条以上的查询分析)