一、将爬虫大作业产生的csv文件上传到HDFS(对CSV文件进行预处理生成无标题文本文件)

1.准备本地数据文件 jin.csv(2500条数据)。

2.在本地中创建一个/usr/local/bigdatacase/dataset文件夹:

① cd /usr/local

② sudo mkdir bigdatacase/dataset 

③ 把文件jin.csv用cp命令复制到此目录下

3.对数据进行预处理

 删除文件第一行生产无标题文件

编辑pre_deal.sh文件对csv文件进行数据预处理:

 

 执行pre_deal.sh生成job.txt文件:

 4.把job.txt上传到HDFS中:

启动HDFS:

在HDFS中创建/bigdatacase/dataset文件夹,并把job.txt文件上传到该目录下:

在HDFS中查看job.txt的前10条记录:

 二、把hdfs中的文本文件最终导入到数据仓库Hive中

1.启动Hive:

2.创建数据库job

3.创建表jobs

 

4..查询表中的数据:

 

三、用Hive对爬虫大作业产生的进行数据分析(10条以上的查询分析)

1.查询哪个地方的招聘信息多

结果:

从上图可以看出,深圳南山区的招聘信息最多,从而得知这里可能互联网企业较多,想找工作的朋友可以到南山区试试。

 2.查询哪天发布的招聘信息最多

结果:

由上图可知,6月10号分布的招聘信息最多;

3.查询哪个公司发布的招聘信息最多

结果:

由上图可知,公司字节跳动发布的招聘信息最多。

4。查找哪种职位的工作最多

结果:

从上图可以看出,运维工程师类的招聘信息最多,测试工程师其次。可知运维工程师在该行业里需求大。

5.查找6月4号这天有多少公司发布了招聘信息

结果:

6.按最早日期查找宝安区的前10条招聘信息

结果:

7.查找AI工程师的招聘信息

结果:

8.查找深圳市度点科技有限公司发布的招聘信息。

结果:

9.查询月薪为2.5-3万的工作有哪些

结果:

10.查找6月10号这天宝安区发布的招聘信息

结果:

 

四、总结

在完成这次作业的过程中,遇到了以下几个问题:

1.数据文件导入linux系统时出现了中文乱码。

解决方式:用npp转成utf-8格式。

2.创建数据库表后,表里插入了大量的空记录。

解决方式:用语句 insert overwrite table jobs select * from jobs where id is not NULL; 删除