八爪鱼数据抓取,智联招聘为例
一.八爪鱼抓取智联招聘信息
1.1 打开八爪鱼采集器==》选择快速开始==>新建任务(高级模式)
1.2点击下一步 基本流程如下点击下一步
1.3启动单机采集等待数据抓取完毕
1.4导出数据 csv格式
二.将信息导入到虚拟机
2.1 因访问外网需要建立socroueCRT映射
2.2使用Fz将数据导入虚拟机
2.3文件格式修改
iconv -f encoding -t encoding inputfile 比如将一个UTF-8 编码的文件转换成GBK编码
iconv -f GBK -t UTF-8 file1 -o file2
三.将信息从虚拟机导入到hdfs
3.1 使用命令hadoop fs -put 文件名 路径
Hadoop fs -put /文件路径 /要导入的路径
四.将hdfs的csv文件导入到hive表中
4.1 创建表
4.2将数据导入
Load data input ‘/hdfs的路径’ into table 数据库名.表名;
五.将hive表换成hive中的事物表
5.1创建事物表
5.2将引号去除
5.3将工资平均导入新表
六.将salary的取值区间转换成平均值
七.分析工资最高的前三名职位
八.分析需求量最高的大数据职位前三名
九.分析需求量最高的三大行业
十.分析结果通过zeppelin展示