| | | |

|

大数据应用期末总评

一、将爬虫大作业产生的csv文件上传到HDFS（对CSV文件进行预处理生成无标题文本文件）

1.准备本地数据文件 jin.csv（2500条数据）。

2.在本地中创建一个/usr/local/bigdatacase/dataset文件夹：

① cd /usr/local

② sudo mkdir bigdatacase/dataset

③ 把文件jin.csv用cp命令复制到此目录下

3.对数据进行预处理

删除文件第一行生产无标题文件

编辑pre_deal.sh文件对csv文件进行数据预处理：

执行pre_deal.sh生成job.txt文件：

4.把job.txt上传到HDFS中：

启动HDFS:

在HDFS中创建/bigdatacase/dataset文件夹，并把job.txt文件上传到该目录下：

在HDFS中查看job.txt的前10条记录：

二、把hdfs中的文本文件最终导入到数据仓库Hive中

1.启动Hive：

2.创建数据库job

3.创建表jobs

4..查询表中的数据：

三、用Hive对爬虫大作业产生的进行数据分析（10条以上的查询分析）

1.查询哪个地方的招聘信息多

结果：

从上图可以看出，深圳南山区的招聘信息最多，从而得知这里可能互联网企业较多，想找工作的朋友可以到南山区试试。

2.查询哪天发布的招聘信息最多

结果：

由上图可知，6月10号分布的招聘信息最多；

3.查询哪个公司发布的招聘信息最多

结果：

由上图可知，公司字节跳动发布的招聘信息最多。

4。查找哪种职位的工作最多

结果：

从上图可以看出，运维工程师类的招聘信息最多，测试工程师其次。可知运维工程师在该行业里需求大。

5.查找6月4号这天有多少公司发布了招聘信息

结果：

6.按最早日期查找宝安区的前10条招聘信息

结果：

7.查找AI工程师的招聘信息

结果：

8.查找深圳市度点科技有限公司发布的招聘信息。

结果：

9.查询月薪为2.5-3万的工作有哪些

结果：

10.查找6月10号这天宝安区发布的招聘信息

结果：

四、总结

在完成这次作业的过程中，遇到了以下几个问题：

1.数据文件导入linux系统时出现了中文乱码。

解决方式：用npp转成utf-8格式。

2.创建数据库表后，表里插入了大量的空记录。

解决方式：用语句 insert overwrite table jobs select * from jobs where id is not NULL; 删除

发表于 2019-06-17 09:23 杜俊霖阅读(487) 评论(0) 编辑收藏举报

刷新页面返回顶部