一、将爬虫大作业产生的csv文件上传到HDFS(对CSV文件进行预处理生成无标题文本文件)
1.准备本地数据文件 jin.csv(2500条数据)。
2.在本地中创建一个/usr/local/bigdatacase/dataset文件夹:
① cd /usr/local
② sudo mkdir bigdatacase/dataset
③ 把文件jin.csv用cp命令复制到此目录下
3.对数据进行预处理
删除文件第一行生产无标题文件
编辑pre_deal.sh文件对csv文件进行数据预处理:
执行pre_deal.sh生成job.txt文件:
4.把job.txt上传到HDFS中:
启动HDFS:
在HDFS中创建/bigdatacase/dataset文件夹,并把job.txt文件上传到该目录下:
在HDFS中查看job.txt的前10条记录:
二、把hdfs中的文本文件最终导入到数据仓库Hive中
1.启动Hive:
2.创建数据库job
3.创建表jobs
4..查询表中的数据:
三、用Hive对爬虫大作业产生的进行数据分析(10条以上的查询分析)
1.查询哪个地方的招聘信息多
结果:
从上图可以看出,深圳南山区的招聘信息最多,从而得知这里可能互联网企业较多,想找工作的朋友可以到南山区试试。
2.查询哪天发布的招聘信息最多
结果:
由上图可知,6月10号分布的招聘信息最多;
3.查询哪个公司发布的招聘信息最多
结果:
由上图可知,公司字节跳动发布的招聘信息最多。
4。查找哪种职位的工作最多
结果:
从上图可以看出,运维工程师类的招聘信息最多,测试工程师其次。可知运维工程师在该行业里需求大。
5.查找6月4号这天有多少公司发布了招聘信息
结果:
6.按最早日期查找宝安区的前10条招聘信息
结果:
7.查找AI工程师的招聘信息
结果:
8.查找深圳市度点科技有限公司发布的招聘信息。
结果:
9.查询月薪为2.5-3万的工作有哪些
结果:
10.查找6月10号这天宝安区发布的招聘信息
结果:
四、总结
在完成这次作业的过程中,遇到了以下几个问题:
1.数据文件导入linux系统时出现了中文乱码。
解决方式:用npp转成utf-8格式。
2.创建数据库表后,表里插入了大量的空记录。
解决方式:用语句 insert overwrite table jobs select * from jobs where id is not NULL; 删除