作业缘由:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363
这是爬取的数据,豆瓣上权利的游戏的影评,将txt文件转换为csv文件
准备工作,开启hadoop,mysql,hive 服务,挂在文件。
查询爬取的数据
创建表
创建表时的数据类型分类,分别为:第几条、用户名、点赞数、发表时间、评论。
建完后 检查一下 确认无误。
查询表中的数据类型
因为豆瓣在未登录下只爬取少量的数据 爬取了207条影评
查出UID不重复的数据 有160条
查询时间前20的各点赞数
总结
这次作业是结合本学期学过的所有知识,利用PYHTON爬取出的数据来进行分析,将数据通过HDFS传入数据库MYSQL中,
在HIVE中进行建表和区分数据类型,再利用HIVE中进行特定要求的数据查询,获得所需要的结果。
问题:在实验过程中,将CSV文件导入进取时总是遇到乱码,是因为没有设置为UTF-8模式进行保存才会出现乱码。
还有在HIVE建表时第一列我本应该为用户名,可在表格中是序号,所以我建的第一个表格bigdata_user导致后面的数据类型不规范,
我上网百度了下后删除了表格中的所有数据,并重新建立了一个新表格bigdata。