八爪鱼数据抓取,智联招聘为例

一.八爪鱼抓取智联招聘信息

1.1 打开八爪鱼采集器==》选择快速开始==>新建任务(高级模式)

 

 

1.2点击下一步 基本流程如下点击下一步

 

1.3启动单机采集等待数据抓取完毕

 

1.4导出数据 csv格式

 

 

二.将信息导入到虚拟机

2.1 因访问外网需要建立socroueCRT映射

 

2.2使用Fz将数据导入虚拟机

 

2.3文件格式修改

 iconv -f encoding -t encoding inputfile 比如将一个UTF-8 编码的文件转换成GBK编码

  iconv -f GBK -t UTF-8 file1 -o file2

 

 

三.将信息从虚拟机导入到hdfs

3.1 使用命令hadoop fs -put 文件名 路径

Hadoop fs -put /文件路径  /要导入的路径

 

四.hdfs的csv文件导入到hive表中

4.1 创建表

 

4.2将数据导入

Load data input ‘/hdfs的路径’ into table 数据库名.表名;

 

五.hive表换成hive中的事物表

5.1创建事物表

 

 

5.2将引号去除

 

5.3将工资平均导入新表

 

 

 

六.salary的取值区间转换成平均值

 

七.分析工资最高的前三名职位

 

八.分析需求量最高的大数据职位前三名

 

九.分析需求量最高的三大行业

 

十.分析结果通过zeppelin展示

 

 

posted @ 2017-08-25 14:34  菜鸟的进击  阅读(4843)  评论(0编辑  收藏  举报