python爬虫实战（九）--------拉勾网全站职位（CrawlSpider）

相关代码已经修改调试成功----2017-4-24

详情代码请移步我的github：https://github.com/pujinxiao/Lagou_spider

一、说明

1.目标网址：拉勾网

2.实现内容：爬取相应的字段

数据表名

3.思路：

1.首先类似于 https://www.lagou.com/jobs/2182417.html 这样的链接是最终要的url。基本都是差不多，要变的就是那一串数字，编写正则表达式匹配就好。

2.除了首页还有其他地方也能找到这样的url，所以我先匹配职位分类的url 例如：https://www.lagou.com/zhaopin/Java/，在抓取最终的url。

3.scrapy会自动去重。

4.数据：

二、运行

1.配置好相关数据库的信息，运行main.py函数即可

三、问题----欢迎留言提出问题

声明：此项目主要是学习CrawlSpider类，爬取全站的职位信息，熟悉Rule的一些用法。

1.你会发现爬取一小会儿，会被禁掉IP，要买代理IP才可行，免费的代理IP都不好用了，还有就是放慢抓取的速度。这样效果会更好。（解决）

欢迎有兴趣的小伙伴帮我优化，解决以上问题，之后我将合并你的代码，作为贡献者,共同成长。

编者邮箱：jinxiao_pu@163.com

如果本项目对你有用请给我一颗star，万分感谢。

详情代码请移步我的github：https://github.com/pujinxiao/Lagou_spider

作者：今孝

出处：http://www.cnblogs.com/jinxiao-pu/p/6757145.html

本文版权归作者和博客园共有，欢迎转载，但未经作者同意必须保留此段声明，且在文章页面明显位置给出原文连接。

posted @ 2017-04-24 16:10 今孝阅读(2855) 评论(2) 编辑收藏举报

刷新页面返回顶部

今孝

你现在的努力，决定你未来站立的高度，所立之处，决定你看到什么样的风景。

python爬虫实战（九）--------拉勾网全站职位（CrawlSpider）

一、说明

二、运行

三、问题----欢迎留言提出问题

公告