期末综合大作业

作业要求:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3339

 

1. 将爬虫大作业产生的 csv 文件上传到 HDFS

准备好的文件

 

在HDFS上创建 cjl/hive文件夹

通过使用 put 上传到HDFS

通过使用 ls 查看,上传成功

 

 

 

 

2. 对 CSV 文件处理生成无标题文本文件保存为UTF-8格式

使用 head 命令查看前 5行数据

 

 

 

3. 把 hdfs 中的文本文件最终导入到数据仓库 Hive 中

先开启mysql service

在Hive上创建 database,并使用

创建表db将HDFS文件的数据加载到表中

 

 

4. 在 Hive 中查看并分析数据

 

查询获赞前50的用户,获赞数

 

 

查询得到评论最多的30个用户,评论数

 

查询用户的男女比例

-1为用户未设置性别

0代表用户性别是女生

1代表用户性别是男生

如图所示,未知、女生、男生均占1/3.

 

查询用户评论时使用了图片的人数

 

查询评论为空的评论相关数据

 

查询使用匿名评论的用户人数

 

查询用户名未设置的用户人数

 

查询评论字数少于12字的用户名及评论

 

posted @ 2019-06-17 11:22  qwertuyt124  阅读(242)  评论(0编辑  收藏  举报