java爬虫系列(四) - 51招聘信息
copy自:https://www.ayulong.cn/blog/15
因为看的视频稍微有点点老了, 这一两年的时间许多网站结构也发生了变化, 要想再获取相同的数据只能通过自己去发现和解析, 虽然过程有点曲折, 但是在爬出数据并存储到数据库的时候还是挺开心的
爬取51招聘信息
1. 爬前准备
业务分析
我们已经学完了WebMagic的基本使用方法,现在准备使用WebMagic实现爬取数据的功能。这里是一个比较完整的实现。在这里我们实现的是聚焦网络爬虫,只爬取招聘的相关数据。
今天要实现的是爬取https://www.51job.com/上的招聘信息, 只爬取与“java”相关和在广州地区行业的信息。
首先访问页面并搜索, 结果如下:
点击职位详情页,我们分析发现详情页还有一些数据需要抓取:
职位、公司名称、工作地点、薪资、发布时间、职位信息、公司联系方式、公司信息
知识补充
但是在这里有个问题:在解析页面的时候,很可能会解析出相同的url地址(例如商品标题和商品图片超链接,而且url一样),如果不进行处理,同样的url会解析处理多次,浪费资源。所以我们需要有一个url去重的功能
1. Scheduler组件
WebMagic提供了Scheduler可以帮助我们解决以上问题。
Scheduler是WebMagic中进行URL管理的组件。一般来说,Scheduler包括两个作用:
对待抓取的URL队列进行管理。
对已抓取的URL进行去重。
WebMagic内置了几个常用的Scheduler。如果你只是在本地执行规模比较小的爬虫,那么基本无需定制Scheduler,但是了解一下已经提供的几个Scheduler还是有意义的
类 | 说明 | 备注 |
---|---|---|
DuplicateRemovedScheduler | 抽象基类,提供一些模板方法 | 继承它可以实现自己的功能 |
QueueScheduler | 使用内存队列保存待抓取URL (一般常用) | |
PriorityScheduler | 使用带有优先级的内存队列保存待抓取URL | 耗费内存较QueueScheduler更大,但是当设置了request.priority之后,只能使用PriorityScheduler才可使优先级生效 |
FileCacheQueueScheduler | 使用文件保存抓取URL,可以在关闭程序并下次启动时,从之前抓取到的URL继续抓取(效率慢) | 需指定路径,会建立.urls.txt和.cursor.txt两个文件 |
RedisScheduler | 使用Redis保存抓取队列,可进行多台机器同时合作抓取(成本较高) | 需要安装并启动redis |
去重部分被单独抽象成了一个接口:DuplicateRemover,从而可以为同一个Scheduler选择不同的去重方式,以适应不同的需要,目前提供了两种去重方式。
类 | 说明 |
---|---|
HashSetDuplicateRemover | 使用HashSet来进行去重,占用内存较大 (较少时使用) |
BloomFilterDuplicateRemover | 布隆过滤器, 使用BloomFilter来进行去重,占用内存较小,但是可能漏抓页面 (比hash效率高很多, 一般用这个, 要忍受丢链接) |
RedisScheduler是使用Redis的set进行去重,其他的Scheduler(包括未指定的)默认都使用HashSetDuplicateRemover来进行去重
如果要使用BloomFilter,必须要加入以下依赖:
<!--WebMagic对布隆过滤器的支持--> <dependency> <groupId>com.google.guava</groupId> <artifactId>guava</artifactId> <version>16.0</version> </dependency>
修改代码添加布隆过滤器
public static void main(String[] args) {
Spider.create(new JobProcessor())
//初始访问url地址
.addUrl("https://www.jd.com/moreSubject.aspx")
.addPipeline(new FilePipeline("D:/webmagic/"))
.setScheduler(new QueueScheduler()
.setDuplicateRemover(new BloomFilterDuplicateRemover(10000000))) //参数设置需要对多少条数据去重
.thread(1)//设置线程数
.run();
}
可以修改public void process(Page page)方法,添加多条相同代码测试是否去重成功, 这里就不演示了
//每次加入相同的url,测试去重
page.addTargetRequest("https://www.jd.com/news.html?id=36480");
2. 三种去重方式
去重就有三种实现方式,那有什么不同呢?
- HashSet
使用java中的HashSet不能重复的特点去重。优点是容易理解。使用方便。
缺点:占用内存大,性能较低。
- Redis去重
使用Redis的set进行去重。优点是速度快(Redis本身速度就很快),而且去重不会占用爬虫服务器的资源,可以处理更大数据量的数据爬取。
缺点:需要准备Redis服务器,增加开发和使用成本。
- 布隆过滤器 (BloomFilter) (使用较多)
使用布隆过滤器也可以实现去重。优点是占用的内存要比使用HashSet要小的多,也适合大量数据的去重操作。
缺点:有误判的可能。没有重复可能会判定重复,但是重复数据一定会判定重复。
布隆过滤器 (Bloom Filter)是由Burton Howard Bloom于1970年提出,它是一种space efficient的概率型数据结构,用于判断一个元素是否在集合中。在垃圾邮件过滤的黑白名单方法、爬虫(Crawler)的网址判重模块中等等经常被用到。
哈希表也能用于判断元素是否在集合中,但是布隆过滤器只需要哈希表的1/8或1/4的空间复杂度就能完成同样的问题。布隆过滤器可以插入元素,但不可以删除已有元素。其中的元素越多,误报率越大,但是漏报是不可能的。
原理: 了解即可, 参考 布隆过滤器原理及应用
3. Pipeline
在WebMagic中,Pileline是抽取结束后,进行处理的部分,它主要用于抽取结果的保存,也可以定制Pileline可以实现一些通用的功能。在这里我们会定制Pipeline实现数据导入到数据库中
Pipeline的接口定义如下:
public interface Pipeline {
// ResultItems保存了抽取结果,它是一个Map结构,
// 在page.putField(key,value)中保存的数据,
//可以通过ResultItems.get(key)获取
public void process(ResultItems resultItems, Task task);
}
可以看到,Pipeline其实就是将PageProcessor抽取的结果,继续进行了处理的,其实在Pipeline中完成的功能,你基本上也可以直接在PageProcessor实现,那么为什么会有Pipeline?有几个原因:
- 为了模块分离
“页面抽取”和“后处理、持久化”是爬虫的两个阶段,将其分离开来,一个是代码结构比较清晰,另一个是以后也可能将其处理过程分开,分开在独立的线程以至于不同的机器执行。
- Pipeline的功能比较固定,更容易做成通用组件
每个页面的抽取方式千变万化,但是后续处理方式则比较固定,例如保存到文件、保存到数据库这种操作,这些对所有页面都是通用的。
在WebMagic里,一个Spider可以有多个Pipeline,使用Spider.addPipeline()即可增加一个Pipeline。这些Pipeline都会得到处理,例如可以使用实现输出结果到控制台,并且保存到文件的目标。
spider.addPipeline(new ConsolePipeline()).addPipeline(new FilePipeline())
WebMagic中就已经提供了控制台输出、保存到文件、保存为JSON格式的文件几种通用的Pipeline。
类 | 说明 | 备注 |
---|---|---|
ConsolePipeline | 输出结果到控制台 | 抽取结果需要实现toString方法 |
FilePipeline | 保存结果到文件 | 抽取结果需要实现toString方法 |
JsonFilePipeline | JSON格式保存结果到文件 | |
ConsolePageModelPipeline | (注解模式)输出结果到控制台 | |
FilePageModelPipeline | (注解模式)保存结果到文件 | |
JsonFilePageModelPipeline | (注解模式)JSON格式保存结果到文件 | 想持久化的字段需要有getter方法 |
2. 环境搭建
建数据表
CREATE TABLE `job_info` (
`id` bigint(0) NOT NULL AUTO_INCREMENT COMMENT '主键id',
`company_name` varchar(100) CHARACTER SET utf8 COLLATE utf8_general_ci NULL DEFAULT NULL COMMENT '公司名称',
`company_addr` varchar(200) CHARACTER SET utf8 COLLATE utf8_general_ci NULL DEFAULT NULL COMMENT '公司联系方式',
`company_info` text CHARACTER SET utf8 COLLATE utf8_general_ci NULL COMMENT '公司信息',
`job_name` varchar(100) CHARACTER SET utf8 COLLATE utf8_general_ci NULL DEFAULT NULL COMMENT '职位名称',
`job_addr` text CHARACTER SET utf8 COLLATE utf8_general_ci NULL COMMENT '工作地点',
`job_info` text CHARACTER SET utf8 COLLATE utf8_general_ci NULL COMMENT '职位信息',
`salary_min` int(0) NULL DEFAULT NULL COMMENT '薪资范围,最小',
`salary_max` int(0) NULL DEFAULT NULL COMMENT '薪资范围,最大',
`url` varchar(150) CHARACTER SET utf8 COLLATE utf8_general_ci NULL DEFAULT NULL COMMENT '招聘信息详情页',
`time` varchar(30) CHARACTER SET utf8 COLLATE utf8_general_ci NULL DEFAULT NULL COMMENT '职位最近发布时间',
PRIMARY KEY (`id`) USING BTREE
) ENGINE=InnoDB AUTO_INCREMENT=1 DEFAULT CHARSET=utf8 COMMENT='招聘信息';
在pom.xml中添加依赖
<?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"> <parent> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-parent</artifactId> <version>2.0.2.RELEASE</version> </parent> <modelVersion>4.0.0</modelVersion> <groupId>cn.ayulong</groupId> <artifactId>ayulong-crawler-job</artifactId> <version>1.0-SNAPSHOT</version> <properties> <java.version>1.8</java.version> </properties> <dependencies> <!--SpringMVC--> <dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-web</artifactId> </dependency> <!--SpringData Jpa--> <dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-data-jpa</artifactId> </dependency> <!--MySQL连接包--> <dependency> <groupId>mysql</groupId> <artifactId>mysql-connector-java</artifactId> <version>8.0.11</version> </dependency> <!--WebMagic核心包--> <dependency> <groupId>us.codecraft</groupId> <artifactId>webmagic-core</artifactId> <version>0.7.3</version> <exclusions> <exclusion> <groupId>org.slf4j</groupId> <artifactId>slf4j-log4j12</artifactId> </exclusion> </exclusions> </dependency> <!--WebMagic扩展--> <dependency> <groupId>us.codecraft</groupId> <artifactId>webmagic-extension</artifactId> <version>0.7.3</version> </dependency> <!--WebMagic对布隆过滤器的支持--> <dependency> <groupId>com.google.guava</groupId> <artifactId>guava</artifactId> <version>16.0</version> </dependency> <!--工具包--> <dependency> <groupId>org.apache.commons</groupId> <artifactId>commons-lang3</artifactId> </dependency> </dependencies> </project>
加入配置文件
在resources目录下添加application.yml文件
spring: # 数据库配置 datasource: driver-class-name: com.mysql.cj.jdbc.Driver url: jdbc:mysql:///crawler?useSSL=false&serverTimezone=Asia/Shanghai username: root password: mima # jpa配置 jpa: database: MySQL show-sql: false
在resources目录下添加log4j.properties文件
log4j.rootLogger=INFO,A1
log4j.appender.A1=org.apache.log4j.ConsoleAppender
log4j.appender.A1.layout=org.apache.log4j.PatternLayout
log4j.appender.A1.layout.ConversionPattern=%-d{yyyy-MM-dd HH🇲🇲ss,SSS} [%t] [%c]-[%p] %m%n
编写pojo
@Entity public class JobInfo { @Id @GeneratedValue(strategy = GenerationType.IDENTITY) private Long id; private String companyName; private String companyAddr; private String companyInfo; private String jobName; private String jobAddr; private String jobInfo; private Integer salaryMin; private Integer salaryMax; private String url; private String time; // 生成 get/set 方法 // 生成 toString() 方法 }
编写Dao
package cn.ayulong.job.dao; import cn.ayulong.job.pojo.JobInfo; import org.springframework.data.jpa.repository.JpaRepository; public interface JobInfoDao extends JpaRepository<JobInfo, Long> { }
编写Service
编写service接口
package cn.ayulong.job.service; import cn.ayulong.job.pojo.JobInfo; import java.util.List; public interface JobInfoService { /** * 保存工作信息 * @param jobInfo */ public void save(JobInfo jobInfo); /** * 根据条件查询工作信息 * @param jobInfo * @return */ public List<JobInfo> findJobInfo(JobInfo jobInfo); }
编写service实现类
package cn.ayulong.job.service.impl; import cn.ayulong.job.dao.JobInfoDao; import cn.ayulong.job.pojo.JobInfo; import cn.ayulong.job.service.JobInfoService; import org.springframework.beans.factory.annotation.Autowired; import org.springframework.data.domain.Example; import org.springframework.stereotype.Service; import org.springframework.transaction.annotation.Transactional; import java.util.List; @Service public class JobInfoServiceImpl implements JobInfoService { @Autowired private JobInfoDao jobInfoDao; @Override @Transactional public void save(JobInfo jobInfo) { // 根据每条工作信息的url和发布时间查询数据 JobInfo param = new JobInfo(); param.setUrl(jobInfo.getUrl()); param.setTime(jobInfo.getTime()); // 执行查询 List<JobInfo> list = this.findJobInfo(param); // 判断查询结果是否为空 if (list.size() == 0) { // 如果查询结果为空, 表示招聘信息数据不存在, 或者已经更新了, 需要增或者更新数据库 this.jobInfoDao.saveAndFlush(jobInfo); } } @Override public List<JobInfo> findJobInfo(JobInfo jobInfo) { // 设置查询条件 Example example = Example.of(jobInfo); // 执行查询 List list = this.jobInfoDao.findAll(example); return list; } }
创建引导类
package cn.ayulong.job; import org.springframework.boot.SpringApplication; import org.springframework.boot.autoconfigure.SpringBootApplication; import org.springframework.scheduling.annotation.EnableScheduling; @SpringBootApplication @EnableScheduling // 开启定时任务 public class Application { public static void main(String[] args) { SpringApplication.run(Application.class, args); } }
至此环境搭建完毕
3. 代码实现
添加工具类MathSalary
package cn.ayulong.job.task; // 转换薪资 public class MathSalary { /** * 获取薪水范围 * * @param salaryStr * @return */ public static Integer[] getSalary(String salaryStr) { //声明存放薪水范围的数组 Integer[] salary = new Integer[2]; //"500/天" //0.8-1.2万/月 //5-8千/月 //5-6万/年 String date = salaryStr.substring(salaryStr.length() - 1, salaryStr.length()); //如果是按天,则直接乘以240进行计算 if (!"月".equals(date) && !"年".equals(date)) { salaryStr = salaryStr.substring(0, salaryStr.length() - 2); salary[0] = salary[1] = str2Num(salaryStr, 240); return salary; } String unit = salaryStr.substring(salaryStr.length() - 3, salaryStr.length() - 2); String[] salarys = salaryStr.substring(0, salaryStr.length() - 3).split("-"); salary[0] = mathSalary(date, unit, salarys[0]); salary[1] = mathSalary(date, unit, salarys[1]); return salary; } //根据条件计算薪水 private static Integer mathSalary(String date, String unit, String salaryStr) { Integer salary = 0; //判断单位是否是万 if ("万".equals(unit)) { //如果是万,薪水乘以10000 salary = str2Num(salaryStr, 10000); } else { //否则乘以1000 salary = str2Num(salaryStr, 1000); } //判断时间是否是月 if ("月".equals(date)) { //如果是月,薪水乘以12 salary = str2Num(salary.toString(), 12); } return salary; } private static int str2Num(String salaryStr, int num) { try { // 把字符串转为小数,必须用Number接受,否则会有精度丢失的问题 Number result = Float.parseFloat(salaryStr) * num; return result.intValue(); } catch (Exception e) { } return 0; } }
自定义Pipeline存储数据
在WebMagic中,Pileline是抽取结束后,进行处理的部分,它主要用于抽取结果的保存,也可以定制Pileline可以实现一些通用的功能。在这里我们会定制Pipeline实现数据导入到数据库中
package cn.ayulong.job.task; import cn.ayulong.job.pojo.JobInfo; import cn.ayulong.job.service.JobInfoService; import org.springframework.beans.factory.annotation.Autowired; import org.springframework.stereotype.Component; import us.codecraft.webmagic.ResultItems; import us.codecraft.webmagic.Task; import us.codecraft.webmagic.pipeline.Pipeline; @Component public class SpringDataPipeline implements Pipeline { @Autowired private JobInfoService jobInfoService; @Override public void process(ResultItems resultItems, Task task) { // 获取封装好的招聘详情对象 JobInfo jobInfo = resultItems.get("jobInfo"); // 判断是否不为空 if (jobInfo != null) { // 如果不为空把数据保存到数据库中 this.jobInfoService.save(jobInfo); } } }
编写主要的爬虫类
稍微自己修改了一下, 因为 51job 现在的网页和之前相比改了一些, 数据不能直接在网页的元素上拿到, 所以解析数据的方式也得有所变化, 只能想办法解析网页中的js代码, 测试基本没有什么问题
package cn.ayulong.job.task; import cn.ayulong.job.pojo.JobInfo; import com.alibaba.fastjson.JSONArray; import com.alibaba.fastjson.JSONObject; import org.jsoup.Jsoup; import org.springframework.beans.factory.annotation.Autowired; import org.springframework.scheduling.annotation.Scheduled; import org.springframework.stereotype.Component; import org.springframework.util.StringUtils; import us.codecraft.webmagic.Page; import us.codecraft.webmagic.Site; import us.codecraft.webmagic.Spider; import us.codecraft.webmagic.processor.PageProcessor; import us.codecraft.webmagic.scheduler.BloomFilterDuplicateRemover; import us.codecraft.webmagic.scheduler.QueueScheduler; import us.codecraft.webmagic.selector.Html; import java.text.SimpleDateFormat; import java.util.Date; @Component public class JobProcessor implements PageProcessor { // 因为拿不到下一页的链接只好设置一个变量 private int count = 1; private String url = "https://search.51job.com/list/030200,000000,0000,00,9,99,java,2,1.html?lang=c&postchannel=0000&workyear=99&cotype=99°reefrom=99&jobterm=99&companysize=99&ord_field=0&dibiaoid=0&line=&welfare="; private SimpleDateFormat formatter = new SimpleDateFormat("yyyy-"); private String today = formatter.format(new Date()); @Override public void process(Page page) { // 因为在51招聘的页面中不能直接拿到页面元素, 经分析数据在页面的js中 // 于是想办法将js对象(json数据)解析出来, 获取到详情页面的链接放到任务队列中 // 解析页面, 获取script中招聘详情信息 String dataJs = page.getHtml().css("script").regex(".*SEARCH_RESULT.*").get(); // 判断获取到的页面是否为空 if (!StringUtils.isEmpty(dataJs)) { System.out.println("开始抓取第" + count++ + "页"); // 如果不为空, 表示这是列表页 // 解析拿到json字符串 dataJs = dataJs.substring(dataJs.indexOf("{"), dataJs.lastIndexOf("}") + 1); // 创建json对象 JSONObject jsonObject = (JSONObject) JSONObject.parse(dataJs); // 根据分析拿到放置信息的数组 JSONArray resArr = jsonObject.getJSONArray("engine_search_result"); // 判断数组中是否存在数据 if (resArr.size() > 0) { for (int i = 0; i < resArr.size(); i++) { // 获取数组中的每一个对象 JSONObject resObj = (JSONObject) resArr.get(i); //把获取到的url地址放到任务队列中 page.addTargetRequest(String.valueOf(resObj.get("job_href"))); } // 获取下一页的url String bkUrl = "https://search.51job.com/list/030200,000000,0000,00,9,99,java,2," + count + ".html?lang=c&postchannel=0000&workyear=99&cotype=99°reefrom=99&jobterm=99&companysize=99&ord_field=0&dibiaoid=0&line=&welfare="; // 把url放到任务队列中 page.addTargetRequest(bkUrl); } else { // 设置变量为初始值 count = 0; // 如果没有数据那么爬虫结束 return; } } else { // 如果为空, 表示这是招聘详情页, 解析页面, 获取招聘详情信息, 保存数据 this.saveJobInfo(page); } } // 解析页面, 获取招聘详情信息, 保存数据 private void saveJobInfo(Page page) { // 创建招聘详情对象 JobInfo jobInfo = new JobInfo(); // 解析页面 Html html = page.getHtml(); // 获取数据, 封装到对象中 // 拿到有地址和发布时间的那条文字 String desc = Jsoup.parse(html.css("p.msg.ltype").toString()).text(); if (desc == null) { // 有极少数非51内部网站无法找到 return; } // 为了能够找到发布时间截取了字符串 desc = desc.substring(0, desc.lastIndexOf("发布")); // 设置公司名称 jobInfo.setCompanyName(html.css("div.cn p.cname a", "text").toString().trim()); // 设置公司地址 jobInfo.setCompanyAddr(desc.substring(0, desc.indexOf("|")).trim()); // 设置公司信息 jobInfo.setCompanyInfo(Jsoup.parse(html.css("div.tmsg").toString()).text()); // 设置职位名称 jobInfo.setJobName(html.css("div.cn h1", "text").toString()); // 设置工作地址 jobInfo.setJobAddr(html.css("div.bmsg>p.fp", "text").toString()); // 设置工作信息(要求) jobInfo.setJobInfo(Jsoup.parse(html.css("div.job_msg").toString()).text()); // 设置当前链接 jobInfo.setUrl(page.getUrl().toString()); // 获取薪资 // 有的没有写薪资, 先获取薪资的字符串 String salaryText = html.css("div.cn strong", "text").toString(); // 看看是否没有薪资这个字段 if (!StringUtils.isEmpty(salaryText)) { // 使用工具类转换薪资字符串 Integer[] salary = MathSalary.getSalary(salaryText); jobInfo.setSalaryMax(salary[0]); jobInfo.setSalaryMin(salary[1]); } else { // 没有则设为零 jobInfo.setSalaryMax(0); jobInfo.setSalaryMin(0); } // 获取发布时间 // 获取发布时间 String time = desc.substring(desc.lastIndexOf("|") + 3); jobInfo.setTime(today + time.trim()); // 把结果保存起来 page.putField("jobInfo", jobInfo); } private Site site = Site.me() .setCharset("gbk") // 设置编码 .setTimeOut(10*1000) // 设置超时时间 .setRetrySleepTime(3000) // 设置重试的间隔时间 .setRetryTimes(3); // 设置重试的次数 @Override public Site getSite() { return site; } @Autowired private SpringDataPipeline springDataPipeline; // initialDelay当任务启动后, 等多久执行方法 // fixedDelay每隔多久执行方法 @Scheduled(initialDelay = 1000, fixedDelay = 1000 * 1000) public void process() { Spider.create(new JobProcessor()) .addUrl(url) // 设置Secheduler .setScheduler(new QueueScheduler() // 设置Bloom去重 .setDuplicateRemover(new BloomFilterDuplicateRemover(100000))) .thread(10) // 设置自定义的Pipeline储存数据 .addPipeline(this.springDataPipeline) .run(); } }
至此, 招聘信息的爬取工作完成
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· AI编程工具终极对决:字节Trae VS Cursor,谁才是开发者新宠?
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!