Hadoop综合大作业
Hadoop综合大作业 要求:
1.将爬虫大作业产生的csv文件上传到HDFS
2.对CSV文件进行预处理生成无标题文本文件
3.把hdfs中的文本文件最终导入到数据仓库Hive中
创建数据库
创建表
4.在Hive中查看并分析数据
查看图书评分大于9.0前20本书的详情,可以看出这些都是大家很熟悉的书
查看图书评分大于9.0和评论数大于10万的图书,显示才有9本,这些书都比较值得一看
查看评论数最多,和对应的作者,前20项,大家可以看看这些作者写的其他书籍
查看作者是鲁迅的书,可以看到鲁迅写的书评分都比较高分,基本都是8.0以上,值得推荐
查看评分大于9.0的前20项的书本价格,这样一看不会特别贵,价格比较容易接受
查看图书各个评分阶段都有多少个,8.0分到9.0分的图书还是比较多的
查看作者的书的平均评论数,和平均评分,供给大家参考
查看高分的书的描述,大家可以看完这些描述,要是感兴趣可以考虑买这本书
查看评论数少于5000的,这些书评论虽少,但是综合评分都比较高,也可以考虑看
查看评论数多的,而评分缺比较低,只显示了一本,证明这本书还是比较多人看的,但是评分不是很高
posted on 2019-06-19 15:34 kenda_yellow 阅读(444) 评论(0) 编辑 收藏 举报