大数据应用期末总评

这是爬取的数据，豆瓣上权利的游戏的影评，将txt文件转换为csv文件

准备工作，开启hadoop,mysql,hive 服务，挂在文件。

查询爬取的数据

创建表

创建表时的数据类型分类，分别为：第几条、用户名、点赞数、发表时间、评论。

建完后检查一下确认无误。

查询表中的数据类型

因为豆瓣在未登录下只爬取少量的数据爬取了207条影评

查出UID不重复的数据有160条

查询时间前20的各点赞数

总结

这次作业是结合本学期学过的所有知识，利用PYHTON爬取出的数据来进行分析，将数据通过HDFS传入数据库MYSQL中，

在HIVE中进行建表和区分数据类型，再利用HIVE中进行特定要求的数据查询，获得所需要的结果。

问题：在实验过程中，将CSV文件导入进取时总是遇到乱码，是因为没有设置为UTF-8模式进行保存才会出现乱码。

还有在HIVE建表时第一列我本应该为用户名，可在表格中是序号，所以我建的第一个表格bigdata_user导致后面的数据类型不规范，

我上网百度了下后删除了表格中的所有数据，并重新建立了一个新表格bigdata。

发表于 2019-06-16 20:45 PANG码农阅读(191) 评论(0) 编辑收藏举报

公告