大数据运用期末总评

作业要求:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363

创建文件夹,再放入数据文件。

预处理并查询数据

设置权限

 启动全部服务器

 在HDFS上传文件夹/bigdatacase/dataset

 

 在HDFS上传we_table.txt并查询

 进入hive模式,创建表格bdlab

 使用表格

 创建数据类型:id 、用户名、点赞数、时间、评论

 查询前十条数据

 查询前10的时间

 计算出表内多少数据

 

 查出uid不重复的数据

 

总结:

这次作业是在原来python挖到数据,将数据通过HDFS传入数据库MYSQL中,在HIVE中进行建表和区分数据类型,再利用HIVE中进行特定要求的数据查询,获得所需要的结果。

问题:1在实验过程中,将CSV文件导入进取时总是遇到乱码,然后设置为UTF-8模式才解决问题。

           2在HIVE建表时第一列我本应该为用户名,所以我建的第一个表格bigdata_user导致后面的数据类型不规范,最后通过百度才解决问题。

posted @ 2019-06-18 18:12  田仕钊  阅读(149)  评论(0编辑  收藏  举报