期末综合大作业
作业要求:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3339
1. 将爬虫大作业产生的 csv 文件上传到 HDFS
准备好的文件
在HDFS上创建 cjl/hive文件夹
通过使用 put 上传到HDFS
通过使用 ls 查看,上传成功
2. 对 CSV 文件处理生成无标题文本文件保存为UTF-8格式
使用 head 命令查看前 5行数据
3. 把 hdfs 中的文本文件最终导入到数据仓库 Hive 中
先开启mysql service
在Hive上创建 database,并使用
创建表db将HDFS文件的数据加载到表中
4. 在 Hive 中查看并分析数据
查询获赞前50的用户,获赞数
查询得到评论最多的30个用户,评论数
查询用户的男女比例
-1为用户未设置性别
0代表用户性别是女生
1代表用户性别是男生
如图所示,未知、女生、男生均占1/3.
查询用户评论时使用了图片的人数
查询评论为空的评论相关数据
查询使用匿名评论的用户人数
查询用户名未设置的用户人数
查询评论字数少于12字的用户名及评论