大数据应用期末总评

本作业来自于：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363

1.将爬虫大作业产生的csv文件上传到HDFS

将爬虫大作业中爬取到的数据文件csv导入到/usr/local/bigdatacase/dataset目录下

2.对CSV文件进行预处理生成无标题文本文件

利用bash ./douban.deal.sh douban.csv douban.db.table.txt对文本进行预处理，字符分割、输出

douban.deal.sh脚步如下：

因为本人爬取的数据文件中，评论数据是长评论，所以我就把该列去除了。

查看/usr/local：

利用start-all.sh命令，启动HDFS

在HDFD上建立/bigdatacase/dataset文件夹

把douban_db_table.txt上传到HDFS中

3.把hdfs中的文本文件最终导入到数据仓库Hive中

4.在Hive中查看并分析数据

5.用Hive对爬虫大作业产生的进行数据分析，写一篇博客描述你的分析过程和分析结果。（10条以上的查询分析）

①统计数据总条数

②查询前十条数据

③查询level为力荐的总数

④查询level为推荐的总数

⑤统计level=“力荐”的点赞数

⑥统计level=“力荐”的反对数

⑦统计level=“推荐”的点赞数

⑧统计level=“推荐”的反对数

⑨先查询出level=“力荐”的最高点赞数，然后再根据最高点赞数查询出该用户

④先查询出level=“推荐”的最高点赞数，然后再根据最高点赞数查询出该用户

总结：

通过hive数据库查询统计，在爬取的数据中，《无双》影片在绝大部分人认为是一部很不错的片子，评分星级中的力荐和推荐数占比例80%以上，并且力荐和推荐的评论的点赞数也是远远高于反对数的，hive数据库统计中，因为评论过长，所以我没有导进去，把评论内容这列删除了，但是查询出来的力荐和推荐的最高点赞评论，就可以去观察这两条评论。

问题：在文本预处理中，已经处理好的数据，导入到hive数据库中，建表的字段也和文本字段对应，但却出现有些数据为null的现象，对于这个问题，我也有回头认真检查是否我的文本预处理没有处理好，但是检查结果是文本已经处理好了，就是都进去有些数据不能对应。

posted @ 2019-06-19 18:14 曾鹏菲阅读(170) 评论(0) 收藏举报

刷新页面返回顶部

曾鹏菲

大数据应用期末总评

公告